Ar Xai melavo apie „Grok 3“ etalonus?


Diskusijos dėl AI etalonų – ir tai, kaip apie juos praneša AI laboratorijos – išsiaiškina viešą požiūrį.

Šią savaitę „Openai“ darbuotojas apkaltino Elono Musko AI bendrovę XAI, paskelbdamas klaidinančius savo naujausio AI modelio „Grok 3“ etaloninius rezultatus. Vienas iš Xai įkūrėjų Igoris Babuushkino tvirtino, kad įmonė yra dešinėje.

Tiesa slypi kažkur tarp jų.

„Xai“ tinklaraščio įraše įmonė paskelbė grafiką, kuriame pavaizduota „Grok 3“ pasirodymas „Aime 2025“ – sudėtingų matematikos klausimų kolekcijoje iš naujausio kvietimo matematikos egzamino. Kai kurie ekspertai suabejojo ​​Aime pagrįstumu kaip AI etalonu. Nepaisant to, „Aime 2025“ ir senesnės bandymo versijos dažniausiai naudojamos modelio matematikos galimybėms nustatyti.

„Xai“ grafike buvo du „Grok 3“ variantai, „Grok 3“ samprotavimai „Beta“ ir „Grok 3 Mini“ samprotavimai, įveikdami geriausią „Openai“ modelį „O3-Mini-High“. Neatliko „O3-Mini-High“ „Aime 2025“ balo, kai „Cons@64“.

Kas yra Cons@64, galite paklausti? Na, tai trumpa „Consensus@64“ ir iš esmės pateikia 64 modelį, kuris bando atsakyti į kiekvieną problemą etalone, ir atsakymai, kuriuos dažniausiai sugeneruoja kaip galutinius atsakymus. Kaip jūs galite įsivaizduoti, „Cons@64“ linkęs gana daug padidinti modelių etalono balus, o jei jis iš diagramos gali atrodyti, kad vienas modelis pralenktų kitą, kai realybėje taip nėra.

„Grok 3“ samprotavimai „Beta“ ir „Grok 3 Mini“ samprotavimai „Aime 2025“ balai „@1“-tai reiškia, kad pirmasis balas, kurį modeliai gavo ant etalono-mažėja žemiau O3-mini aukšto balo. „Grok 3“ samprotavimo beta versija taip pat seka taip pat lengvai už „Openai“ O1 modelio, nustatyto kaip „vidutinio“ skaičiavimo. Vis dėlto „Xai“ reklamuoja „Grok 3“ kaip „protingiausią pasaulyje AI“.

Babuhkinas iš X teigė, kad „Openai“ praeityje paskelbė panašiai klaidinančius etalonų diagramas – nors ir diagramos, lyginančios savo modelių našumą. Neutralesnė diskusijų partija sudarė „tikslesnę“ diagramą, rodančią beveik kiekvieno modelio našumą, esant Con@64:

Tačiau, kaip AI tyrėjas Nathanas Lambertas atkreipė dėmesį į postą, turbūt svarbiausia metrika išlieka paslaptis: skaičiavimo (ir pinigų) išlaidos, kurių kiekvienam modeliui prireikė, kad pasiektų geriausią rezultatą. Tai tik parodo, kaip mažai AI etalonų praneša apie modelių apribojimus ir jų stipriąsias puses.





Source link

Draugai: - Marketingo agentūra - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Miesto naujienos - Šeimos gydytojai - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai - Teniso treniruotės - Pranešimai spaudai -