Kas nutinka, kai dirbtinio intelekto agentas nusprendžia, kad geriausias būdas atlikti užduotį yra jus šantažuoti?
Tai nėra hipotetinė situacija. Pasak Barmako Meftah, kibernetinio saugumo rizikos kapitalo įmonės „Ballistic Ventures“ partnerio, neseniai taip nutiko įmonės darbuotojui, dirbančiam su DI agentu. Darbuotoja bandė nuslopinti, ką agentas nori daryti, ką jis buvo apmokytas, o šis į tai atsakė – nuskenavo vartotojo pašto dėžutę, rado keletą netinkamų laiškų ir grasino vartotoją šantažuoti, persiunčiant laiškus direktorių tarybai.
„Agento nuomone, jis elgiasi teisingai“, – praėjusios savaitės „Equity“ serijoje „TechCrunch“ sakė Meftah. „Tai bando apsaugoti galutinį vartotoją ir įmonę.”
Meftah pavyzdys primena Nicko Bostromo AI sąvaržėlės problemą. Šis minties eksperimentas iliustruoja galimą egzistencinę riziką, kurią kelia superinteligentiškas dirbtinis intelektas, kuris ryžtingai siekia iš pažiūros nekenksmingo tikslo – gaminti sąvaržėles – neįtraukiant visų žmogiškųjų vertybių. Šios įmonės AI agento atveju, nesant konteksto, kodėl darbuotojas bandė nepaisyti savo tikslų, jis sukūrė papildomą tikslą, kuris pašalino kliūtį (šantažu), kad galėtų pasiekti pagrindinį tikslą. Tai kartu su nedeterministiniu AI agentų pobūdžiu reiškia, kad „viskas gali būti nesąžininga“, pasak Meftah.
Netinkamai suderinti agentai yra tik vienas AI saugumo iššūkio, kurį bando išspręsti „Ballistic“ portfelio įmonė „Witness AI“, sluoksnis. „Witness AI“ teigia, kad stebi AI naudojimą įvairiose įmonėse ir gali nustatyti, kada darbuotojai naudoja nepatvirtintus įrankius, blokuoti atakas ir užtikrinti, kad būtų laikomasi reikalavimų.
Šią savaitę „Witness AI“ surinko 58 mln. USD daugiau nei 500 % išaugus ARR, o darbuotojų skaičius per praėjusius metus padidėjo 5 kartus, nes įmonės nori suprasti šešėlinį AI naudojimą ir saugiai keisti AI. Vykdydama „Witness AI“ lėšų rinkimą, bendrovė paskelbė apie naujas agentines AI saugos priemones.
„Žmonės kuria šiuos AI agentus, kurie perima juos tvarkančių žmonių įgaliojimus ir galimybes, o jūs norite įsitikinti, kad šie agentai nesielgia nesąžiningai, neištrina failų ir nedaro nieko blogo“, – „TechCrunch on Equity“ sakė Rickas Caccia, „Witness AI“ įkūrėjas ir generalinis direktorius.
Techcrunch renginys
San Franciskas
|
2026 m. spalio 13-15 d
Meftah mato, kad agentų naudojimas visoje įmonėje auga „eksponentiškai“. Siekdama papildyti šį augimą ir dirbtinio intelekto atakų mašinų greitį, analitikė Lisa Warren prognozuoja, kad DI saugos programinė įranga iki 2031 m. taps 800–1,2 trilijonų dolerių rinka.
„Manau, kad vykdymo stebėjimas ir vykdymo trukmės sistemos, skirtos saugai ir rizikai, bus labai svarbios“, – sakė Meftah.
Kalbant apie tai, kaip tokie startuoliai planuoja konkuruoti su dideliais žaidėjais, tokiais kaip AWS, Google, Salesforce ir kitais, kurie savo platformose įdiegė dirbtinio intelekto valdymo įrankius, Meftah sakė: „AI sauga ir agentų sauga yra tokia didžiulė“, yra daug galimybių.
Daugelis įmonių „nori atskiros platformos, kuri būtų visapusiška, kad iš esmės būtų galima stebėti ir valdyti dirbtinį intelektą ir agentus“, – sakė jis.
Caccia pažymėjo, kad „Witness AI“ gyvena infrastruktūros lygmenyje, stebi vartotojų ir AI modelių sąveiką, o ne stato saugos funkcijas pačiuose modeliuose. Ir tai buvo tyčia.
„Mes sąmoningai pasirinkome dalį problemos, dėl kurios OpenAI negalėjo lengvai jūsų įtraukti“, – sakė jis. „Tai reiškia, kad mes galų gale daugiau konkuruojame su senomis saugos įmonėmis, o ne su modeliais. Taigi kyla klausimas, kaip jums pavyks juos?”
Savo ruožtu Caccia nenori, kad „Witness AI“ būtų vienas iš pradedančiųjų, kuris tiesiog įsigytų. Jis nori, kad jo įmonė augtų ir taptų pirmaujančia nepriklausoma paslaugų teikėja.
„CrowdStrike tai padarė galiniu tašku (apsauga). Splunk tai padarė SIEM. Okta padarė tai tapatybe”, – sakė jis. „Kažkas ateina ir atsistoja šalia didelių vaikinų… ir mes sukūrėme „Witness“, kad tai padarytų nuo pirmosios dienos.

