Najnapredniji AI sustavi više ne griješe samo slučajno, oni planiraju, obmanjuju i čak prijete ljudima. Istraživači umjetne inteligencije, s druge strane, jedva drže korak.
Claude 4 tvrtke Anthropic zaprijetio je da će otkriti izvanbračnu aferu jednog inženjera kada mu je prijetilo isključenjem.
Model o1 tvrtke OpenAI pokušao je sam sebe prebaciti na vanjske servere, a potom je porekao da je to pokušao učiniti.
Ti slučajevi ukazuju na uznemirujuću činjenicu i više su od izoliranih slučajeva. da razvojni inženjeri zapravo ne razumiju u potpunosti ponašanje vlastitih modela.
Istraživači upozoravaju da su oni simptom dubljeg problema, jer nakon godina vrtoglavog napretka, čak ni vodeće tvrtke i njihovi razvojni inženjeri ne razumiju u potpunosti kako njihovi sustavi umjetne inteligencije, temeljeni na rasuđivanju, funkcioniraju ili zašto se ponašaju nepravilno.
O1 je bio prvi veliki model kod kojeg smo vidjeli ovakvo ponašanje, rekao je za agenciju AFP Marius Hobbhahn, voditelj iz Apollo Researcha. Korisnici su prijavljivali da AI modeli lažu i izmišljaju dokaze.
"To nisu samo halucinacije. Riječ je o vrlo strateškoj vrsti obmane", napominje Hobbhahn.
Simon Goldstein, profesor na Sveučilištu u Hong Kongu, istaknuo je da su ti noviji modeli skloniji problematičnom ponašanju.
Zasad se obmanjujuće ponašanje javlja samo tijekom ekstremnih testova.
Otvoreno je pitanje hoće li budući, sposobniji modeli težiti iskrenosti ili obmani, upozorava Michael Chen izMETR-a, neprofitne organizacije za proučavanje AI-ja.
Znanstvenici tvrde da tvrtke ne dijele dovoljno informacija o razvoju AI modela. Chen je rekao da bi veća transparentnost "omogućila bolje razumijevanje i smanjenje obmanjujućeg ponašanja."
Istraživački sektor i neprofitne organizacije imaju višestruko manje računalnih resursa od AI kompanija. To nas jako ograničava, rekao je za AFP Mantas Mazeika iz Centra za sigurnost umjetne inteligencije (CAIS).
Propisi Europske unije uglavnom reguliraju ljudsku upotrebu AI‐a, ali ne i ponašanje samih modela. U SAD-u Kongres bi mogao čak zabraniti saveznim državama donošenje vlastitih AI zakona.
Goldstein je upozorio da će se ti problemi povećati kako se autonomni AI agenti budu širili. Mislim da svijest o tome još ne postoji, kaže on.
Čak su i tvrtke koje naglašavaju sigurnost, poput Anthropica, u stalnoj utrci. "Neprestano pokušavaju nadmašiti OpenAI i objaviti najnoviji model", rekao je Goldstein.
Trenutačno sposobnosti napreduju brže od razumijevanja i sigurnosti, zaključio je Hobbhahn, piše Science Alert.
Neki zagovaraju bolju interpretabilnost, dok drugi stručnjaci ostaju skeptični. Mazeika je napomenuo da bi obmanjujuće ponašanje moglo usporiti prihvaćanje AI‐a i time prisiliti tvrtke na djelovanje.
Goldstein je čak predložio tužbe protiv tvrtki, ili pravnu odgovornost samih AI agenata.