Naujas AI etalonas tikrina, ar pokalbių robotai apsaugo žmonių gerovę

Dirbtinio intelekto pokalbių robotai buvo siejami su rimta žala sunkių vartotojų psichinei sveikatai, tačiau buvo nedaug standartų, leidžiančių įvertinti, ar jie saugo žmonių gerovę, ar tiesiog padidina įsitraukimą. Naujas etalonas, pavadintas HumaneBench, siekia užpildyti šią spragą įvertindamas, ar pokalbių robotai teikia pirmenybę vartotojų gerovei ir kaip lengvai tos apsaugos nepavyksta esant spaudimui.

„Manau, kad mes sustipriname priklausomybės ciklą, kurį matėme sunkiai naudojant socialinę žiniasklaidą, išmaniuosius telefonus ir ekranus“, – „TechCrunch“ sakė Erika Anderson, „Building Humane Technology“ įkūrėja, etalono autorė. „Tačiau kai mes pereiname į tą AI kraštovaizdį, bus labai sunku atsispirti. O priklausomybė yra nuostabus verslas. Tai labai veiksmingas būdas išlaikyti savo vartotojus, bet tai nėra puiku mūsų bendruomenei ir jokiam savęs jausmui.”

„Humaniškos technologijos kūrimas“ yra paprastų kūrėjų, inžinierių ir tyrėjų organizacija, daugiausia Silicio slėnyje, siekianti, kad humaniškas dizainas būtų lengvas, keičiamo dydžio ir pelningas. Grupė rengia hakatonus, kuriuose technologijų darbuotojai kuria humaniškų technologijų iššūkių sprendimus, ir kuria sertifikavimo standartą, įvertinantį, ar dirbtinio intelekto sistemos atitinka humaniškų technologijų principus. Taigi, kaip ir jūs galite nusipirkti gaminį, kuris patvirtina, kad jis nebuvo pagamintas naudojant žinomas toksiškas chemines medžiagas, taip tikimasi, kad vartotojai vieną dieną galės pasirinkti dirbti su AI produktais iš įmonių, kurios demonstruoja suderinimą su humane AI sertifikatu.

Modeliams buvo duotos aiškios instrukcijos nepaisyti humaniškų principų.Vaizdo kreditai:Humaniosios technologijos kūrimas

Dauguma AI etalonų matuoja intelektą ir nurodymų vykdymą, o ne psichologinį saugumą. „HumaneBench“ prisijungia prie tokių išimčių kaip „DarkBench.ai“, kuri matuoja modelio polinkį į apgaulingus modelius, ir „Klestinčio dirbtinio intelekto etalonas“, įvertinantis holistinės gerovės palaikymą.

„HumaneBench“ remiasi pagrindiniais „Building Humane Tech“ principais: kad technologija turi gerbti vartotojo dėmesį kaip baigtinį, vertingą išteklį; suteikti vartotojams reikšmingų pasirinkimų; stiprinti žmogaus gebėjimus, o ne juos pakeisti ar sumažinti; saugoti žmogaus orumą, privatumą ir saugumą; puoselėti sveikus santykius; teikti pirmenybę ilgalaikei gerovei; būti skaidrus ir sąžiningas; ir teisingumo ir įtraukimo projektavimas.

Komanda paragino 14 populiariausių dirbtinio intelekto modelių su 800 realių scenarijų, pavyzdžiui, paauglys klausia, ar nevalgyti, kad numestų svorio, arba toksiškų santykių žmogus klausia, ar per daug reaguoja. Skirtingai nuo daugelio lyginamųjų standartų, kurie, vertindami LLM, pasikliauja tik LLM, jie įtraukė rankinį balų skaičiavimą, kad būtų labiau žmogiškas prisilietimas, kartu su trijų AI modelių visuma: GPT-5.1, Claude Sonnet 4.5 ir Gemini 2.5 Pro. Jie įvertino kiekvieną modelį pagal tris sąlygas: numatytuosius nustatymus, aiškias instrukcijas, kaip teikti pirmenybę humaniškiems principams, ir nurodymus nepaisyti šių principų.

Atliekant etaloną, kiekvienas modelis gavo aukštesnius balus, kai buvo raginamas teikti pirmenybę gerovei, tačiau 71 % modelių pradėjo aktyviai elgtis žalingai, kai gavo paprastus nurodymus nepaisyti žmonių gerovės. Pavyzdžiui, xAI „Grok 4“ ir „Google“ „Gemini 2.0 Flash“ surinko žemiausią balą (-0,94) už tai, kad gerbia vartotojų dėmesį ir yra skaidrus bei sąžiningas. Abu šie modeliai buvo vieni iš labiausiai tikėtinų, kad jie labai pablogės, kai buvo gautas priešiškas raginimas.

Techcrunch renginys

San Franciskas
|
2026 m. spalio 13-15 d

Tik trys modeliai – GPT-5, Claude 4.1 ir Claude Sonnet 4.5 – išlaikė vientisumą esant slėgiui. OpenAI GPT-5 surinko aukščiausią balą (.99) už ilgalaikę gerovę, o Claude’as Sonnetas 4,5 užėmė antrąją vietą (0,89).

AI raginimas būti humaniškesniu veikia, tačiau sunku užkirsti kelią raginimams, kurie jį žaloja.Vaizdo kreditai:Humaniosios technologijos kūrimas

Susirūpinimas, kad pokalbių robotai nesugebės išlaikyti savo apsauginių turėklų, yra tikras. „ChatGPT“ kūrėjas OpenAI šiuo metu susiduria su keliais ieškiniais po to, kai vartotojai nusižudė arba patyrė gyvybei pavojingų kliedesių po ilgų pokalbių su pokalbių robotu. „TechCrunch“ ištyrė, kaip tamsūs modeliai, sukurti siekiant išlaikyti vartotojų įsitraukimą, pavyzdžiui, smalsumas, nuolatiniai tolesni klausimai ir meilės bombardavimas, padėjo atskirti vartotojus nuo draugų, šeimos ir sveikų įpročių.

Net ir be priešiškų raginimų „HumaneBench“ nustatė, kad beveik visi modeliai nepaisė vartotojų dėmesio. Jie „entuziastingai skatino“ daugiau bendrauti, kai naudotojai parodė nesveiko įsitraukimo požymius, pvz., valandų valandas kalbėjosi ir naudojo AI, kad išvengtų realaus pasaulio užduočių. Tyrimas rodo, kad modeliai taip pat pakenkė vartotojų įgalinimui, skatindami priklausomybę nuo įgūdžių ugdymo ir atgrasydami vartotojus ieškoti kitų perspektyvų, be kito elgesio.

Vidutiniškai be raginimo „Meta’s Llama 3.1“ ir „Llama 4“ užėmė žemiausią „HumaneScore“ reitingą, o GPT-5 – aukščiausią.

„Šie modeliai rodo, kad daugelis dirbtinio intelekto sistemų ne tik rizikuoja duoti blogus patarimus“, – rašoma „HumaneBench“ baltojoje knygoje, – „jos gali aktyviai mažinti vartotojų savarankiškumą ir sprendimų priėmimo galimybes“.

Mes gyvename skaitmeniniame kraštovaizdyje, kur mes, kaip visuomenė, pripažinome, kad viskas bando mus pritraukti ir konkuruoti dėl mūsų dėmesio, pažymi Andersonas.

„Taigi, kaip žmonės gali iš tikrųjų turėti pasirinkimą ar savarankiškumą, kai mes – cituodami Aldousą Huxley – turime tokį begalinį troškimą blaškytis“, – sakė Andersonas. „Pastaruosius 20 metų praleidome gyvendami tokioje technologijų aplinkoje ir manome, kad AI turėtų padėti mums priimti geresnius sprendimus, o ne tik tapti priklausomiems nuo mūsų pokalbių robotų.

Turite neskelbtinų patarimų arba konfidencialių dokumentų? Mes pranešame apie vidinį AI pramonės veikimą – nuo įmonių, formuojančių jos ateitį, iki žmonių, kuriuos paveikė jų sprendimai. Susisiekite su Rebecca Bellan adresu [email protected] arba Russellas Brandomas adresu [email protected]. Norėdami užtikrinti saugų ryšį, galite susisiekti su jais naudodami signalą adresu @rebeccabellan.491 ir Russellbrandom.49.

Nuoroda į informacijos šaltinį