Anksčiau šią savaitę „Meta“ nusileido karštame vandenyje, kad galėtų naudoti eksperimentinę, neišleistą „Llama 4 Maverick“ modelio versiją, kad pasiektų aukštą balą „LM Arena“, esančiame minios šaltinio etalone. Incidentas paskatino „LM Arena“ prižiūrėtojus atsiprašyti, pakeisti jų politiką ir surinkti nemodifikuotą, vanilinį Mavericką.
Pasirodo, tai nėra labai konkurencinga.
Nemodifikuotas „Maverick“, „Llam-4-Maverick-17B-128E-Instruct“, buvo įvertintas žemiau modelių, įskaitant „Openai“ „GPT-4o“, „Anthropic's Claude 3.5 Sonnet“ ir „Google's Gemini 1.5 Pro“. Daugeliui šių modelių yra mėnesiai.
Išleidimo „Llam 4“ versija buvo įtraukta į „Lmarena“ po to, kai buvo sužinota, kad jie apgavo, bet jūs tikriausiai nematėte, nes jūs turite slinkti iki 32 -osios vietos, kur yra gretos pic.twitter.com/a0bxkdx4lx
– ρ: ɡeσn (@pigeon__s) 2025 m. Balandžio 11 d
Kodėl prastas pasirodymas? „Meta“ eksperimentinis „Maverick“, „Llam-4-Maverick-03-26-Experimental“ buvo „optimizuotas pokalbiams“, bendrovė paaiškino praėjusį šeštadienį paskelbtoje diagramoje. Akivaizdu, kad šie optimizacijos gerai suvaidino „LM Arena“, kurioje yra žmonių vertintojai, palyginantys modelių išvestis ir pasirinkti, kuriems jie labiau patinka.
Kaip jau rašėme anksčiau, dėl įvairių priežasčių „LM Arena“ niekada nebuvo patikimiausia AI modelio veiklos priemonė. Vis dėlto modelio pritaikymas etalonui – be to, kad jis yra klaidinantis, kūrėjams tampa sudėtinga tiksliai nuspėti, kaip gerai modelis veiks skirtinguose kontekstuose.
Savo pranešime „Meta“ atstovas teigė „TechCrunch“, kad meta eksperimentai su „visų tipų pasirinktiniais variantais“.
„„ LlaMA-4-Maverick-03-26-Experimental “yra pokalbių optimizuota versija, su kuria mes eksperimentavome, kuri taip pat gerai veikia LM arenoje“,-teigė atstovas spaudai. „Dabar mes išleidome savo atvirojo kodo versiją ir pamatysime, kaip kūrėjai pritaikys„ Lla 4 “savo naudojimo atvejams. Džiaugiamės galėdami pamatyti, ką jie sukurs, ir laukiu jų nuolatinių atsiliepimų.“