Daugelis šalių „Openai“ apkaltino savo AI mokymu dėl autorių teisių saugomo turinio leidimo. Dabar naujas AI budėjimo organizacijos dokumentas pateikia rimtą kaltinimą, kad bendrovė vis labiau rėmėsi neviešomis knygomis, kuriose nebuvo licencijos mokyti sudėtingesnius AI modelius.
PG modeliai iš esmės yra sudėtingi prognozavimo varikliai. Apmokytos daugybės duomenų – knygų, filmų, TV laidų ir panašiai – jie mokosi modelių ir naujų būdų, kaip ekstrapoliuoti iš paprasto raginimo. Kai modelis „rašo“ esė apie graikų tragediją arba „piešia“ GhibliS stiliaus vaizdus, jis tiesiog traukia iš savo didžiulių žinių iki apytiksliai. Tai neatvyksta į ką nors naujo.
Nors nemažai AI laboratorijų, įskaitant „Openai“, pradėjo naudoti AI generuojamus duomenis, kad būtų galima išmokyti AI, nes jos išsekė realaus pasaulio šaltinius (daugiausia viešąjį internetą), nedaugelis turi visiškai išvengė realaus pasaulio duomenų. Tikėtina, kad mokymai apie grynai sintetinius duomenis kyla su rizika, pavyzdžiui, pablogina modelio našumą.
Naujasis dokumentas, iš „AI DeSclose Project“, ne pelno siekiančios organizacijos, kurią 2024 m. Įkūrė „Media Mogul Tim O'Reilly“ ir ekonomistas Ilanas Straussas, daro išvadą, kad „Openai“ greičiausiai išmokė savo GPT-4o modelį iš „O'Reilly Media“ mokamų knygų. (O'Reilly yra „O'Reilly Media“ generalinis direktorius.)
„ChatGpt“ „GPT-4o“ yra numatytasis modelis. O'Reilly neturi licencijavimo sutarties su „Openai“, rašoma dokumente.
„GPT-4o, naujausias ir pajėgesnis„ Openai “modelis, rodo tvirtą„ PayWalled O'Reilly “knygos turinio pripažinimą …, palyginti su ankstesniu„ Openai “modeliu GPT-3.5 Turbo“,-rašė šio dokumento bendraautoriai. „Priešingai, GPT-3,5 turbo rodo didesnį santykinį viešai prieinamų„ O'Reilly “knygų pavyzdžių pripažinimą.“
Straipsnyje buvo naudojamas metodas, vadinamas DE-cop, pirmą kartą pristatytas akademiniame dokumente 2024 m., Skirtas aptikti autorių teisių saugomą turinį kalbų modelių mokymo duomenyse. Taip pat žinomas kaip „narystės išvadų ataka“, metodas patikrina, ar modelis gali patikimai atskirti žmogaus patvirtintus tekstus nuo perfrazuotų, AI sukurtų to paties teksto versijų. Jei tai gali, tai rodo, kad modelis gali iš anksto žinoti tekstą iš jo mokymo duomenų.
Straipsnio bendraautoriai-O'Reilly, Strauss ir AI tyrėjas Sruly Rosenblat-sako, kad jie patikrino GPT-4O, GPT-3,5 Turbo ir kitų „Openai“ modelių žinias apie „O'Reilly Media“ knygas, išleistus prieš jų mokymo ribas. Jie panaudojo 13 962 pastraipų ištraukas iš 34 „O'Reilly Books“, kad įvertintų tikimybę, jog tam tikra ištrauka buvo įtraukta į modelio mokymo duomenų rinkinį.
Remiantis dokumento rezultatais, „GPT-4o“ „pripažino“ kur kas labiau apmokamą „O'Reilly“ knygos turinį nei senesni „Openai“ modeliai, įskaitant „GPT-3,5 Turbo“. Autoriai teigė, kad tai net ir potencialius klaidinančius veiksnius, pavyzdžiui, naujesnių modelių gebėjimo išsiaiškinti, ar tekstas buvo sukurtas iš žmogaus, patobulinimai.
„GPT-4o (tikėtina) pripažįsta, todėl turi išankstinių žinių apie daugelį neviešų„ O'Reilly “knygų, išleistų iki jos mokymo ribos“,-rašė bendraautoriai.
Tai nėra rūkymo pistoletas, bendraautoriai yra atsargūs. Jie pripažįsta, kad jų eksperimentinis metodas nėra nepriekaištingas ir kad „Openai“ galėjo surinkti mokėtinų knygų ištraukas iš vartotojų, kopijuojančių ir įklijuodami ją į „ChatGpt“.
Toliau purškdami vandenis, bendraautoriai neįvertino naujausio „Openai“ modelių kolekcijos, apimančios GPT-4.5 ir „samprotavimo“ modelius, tokius kaip O3-Mini ir O1. Gali būti, kad šie modeliai nebuvo mokomi mokėti „O'Reilly“ knygų duomenis arba buvo išmokyti mažesnėje sumoje nei GPT-4o.
Atsižvelgiant į tai, ne paslaptis, kad „Openai“, pasisakęs už laisvesnių apribojimus kuriant modelius, naudojantis autorių teisių saugomais duomenimis, kurį laiką siekė aukštesnės kokybės mokymo duomenų. Bendrovė nuėjo taip toli, kad pasamdė žurnalistus, kad padėtų tiksliai sureguliuoti savo modelių rezultatus. Tai yra platesnės pramonės tendencija: PG įmonės įdarbina tokių sričių kaip mokslo ir fizikos ekspertus, kad šie ekspertai galėtų naudotis savo žiniomis į AI sistemas.
Reikėtų pažymėti, kad „Openai“ moka bent kai kuriuos savo mokymo duomenis. Bendrovė rengia licencijavimo sandorius su naujienų leidėjais, socialiniais tinklais, akcijų žiniasklaidos bibliotekomis ir kitomis. „Openai“ taip pat siūlo atsisakymo mechanizmus, nors ir netobulus-kurie leidžia autorių teisių savininkams pažymėti turinį, kuris pirmenybę teiktų įmonei, nenaudojanti mokymo tikslais.
Vis dėlto, kadangi „Openai“ kovoja su keliais ieškiniais dėl savo mokymo duomenų praktikos ir autorių teisių įstatymų traktavimo JAV teismuose, „O'Reilly“ dokumentas nėra pats gluminantiems vaizdams.
„Openai“ neatsakė į prašymą komentuoti.