„Meta“ naujų AI modelių etalonai yra šiek tiek klaidinantys


Vienas iš naujų flagmanų AI modelių „Meta“, išleista šeštadienį, „Maverick“, užima antrąją vietą LM arenoje. Tačiau atrodo, kad „Maverick“ versija, kurią „Meta“ dislokuota „LM Arena“, skiriasi nuo versijos, kuri yra plačiai prieinama kūrėjams.

Kaip keli AI tyrėjai atkreipė dėmesį į X, Meta savo pranešime pažymėjo, kad „Maverick on LM“ arenoje yra „eksperimentinės pokalbių versija“. Tuo tarpu oficialioje „Llam“ tinklalapyje esanti diagrama atskleidžia, kad „Meta LM“ arenos testavimas buvo atliktas naudojant „Llam 4 Maverick“, optimizuotą pokalbiams “.

Kaip jau rašėme anksčiau, dėl įvairių priežasčių „LM Arena“ niekada nebuvo patikimiausia AI modelio veiklos priemonė. Tačiau PG įmonės paprastai neprisipažino ar kitaip tiksliai sureguliavo savo modelius, kad geriau įvertintų „LM“ arenoje-arba bent jau neprisipažino.

Modelio pritaikymo etalonui pritaikymo, jo sulaikymo ir to paties modelio „vanilės“ varianto problema yra ta, kad kūrėjams yra sudėtinga tiksliai nuspėti, kaip gerai modelis veiks tam tikrame kontekste. Tai taip pat klaidina. Idealiu atveju etalonai – apgailėtinai netinkami, kokie jie yra – pateikia vieno modelio stipriųjų ir silpnybių vaizdą įvairiose užduotyse.

Iš tikrųjų X tyrėjai pastebėjo ryškius viešai atsisiunčiamų „Maverick“ elgesio skirtumus, palyginti su modeliu, surengtu LM arenoje. Panašu, kad „LM Arena“ versija naudoja daugybę jaustukų ir pateikia neįtikėtinai ilgalaikius atsakymus.

Mes susisiekėme su „Meta“ ir „Chatbot“ arena – organizacija, kuri palaiko LM areną komentuoti.





Source link

Draugai: - Marketingo agentūra - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Miesto naujienos - Šeimos gydytojai - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai - Teniso treniruotės - Pranešimai spaudai -