„Opus 4.6“ smarkiai pagerina AI agentų atlikimą „Mercor“ etalone

Praėjusį mėnesį rašiau apie naują „Mercor“ etaloną, kuriuo matuojamos AI agentų galimybės atliekant tokias profesines užduotis kaip teisė ir įmonių analizė. Tuo metu rezultatai buvo gana niūrūs – kiekvienos pagrindinės laboratorijos balai buvo mažesni nei 25 proc., todėl padarėme išvadą, kad teisininkai bent jau kol kas buvo apsaugoti nuo AI perkėlimo.

Tačiau AI galimybės per porą savaičių gali labai pasikeisti.

Šią savaitę išleistas „Opus 4.6“ sukrėtė pirmaujančiųjų sąrašus – naujasis „Anthropic“ modelis surinko vos 30 % vienkartinių bandymų ir vidutiniškai 45 %, kai buvo dar keli įtrūkimai. Pažymėtina, kad leidime buvo daug naujų agentų funkcijų, įskaitant „agentų spiečius“, kurios galėjo padėti sprendžiant tokias daugiapakopes problemas.

Nepaisant to, rezultatas yra didžiulis šuolis, palyginti su ankstesniais moderniausiais įrenginiais, ir tai yra ženklas, kad pažanga kuriant pagrindo modelius nelėtėja. „Mercor“ generalinis direktorius Brendanas Foody, kuris buvo ypač sužavėtas, sakė: „per kelis mėnesius šoktelėti nuo 18,4% iki 29,8% yra beprotiška“.

„APEX-Agents“ lyderių lentelė

Trisdešimt procentų dar toli nuo 100%, todėl advokatams nereikia nerimauti, kad kitą savaitę juos pakeis mašinos. Tačiau jie turėtų būti daug mažiau pasitikintys savimi nei praėjusį mėnesį!