Neposlušna AI laže, vara i ucenjuje

Autor: Milan Nikolić, sociolog/ futurolog, Izvor: Novi magzin
U domenu AI (ARTIFICIAL INTELIGENCE) događa se buran razvoj jer se svake nedelje pojavljuje neki novi i jači model, često napravljen u nekoj tek osnovanoj kompaniji. Kad se radi o geopolitici glavni suparnici u ovoj utakmici su SAD i Kina koji se takmiče i u razvoju digitalnih superkompjutera i kvantnih kompjutera bez kojih se AI ne može razvijati.
U SAD su glavni kompetitori OPEN AI, GOOGLE, MICROSOFT, ENTHROPIC, MASKOV xAI, DEEPMIND, META i mnoge manje kompanije. U Kini je najpoznatija kompanija DEPSEEK ali tu su i druge manje poznate ali zato ambiciozne kompanije koje se ne treba potcenjivati.
TRKA ZA MOĆ: Čini se da se generalni okvir razvoja događa tačno prema predviđanjima Reja Kurcvejla (Ray Kurtzvail), čije su se prognoze pokazale do sada najtačnijim. On smatra da sve ove AI još spadaju u SLABU AI (Week AI), a da se tek za dve do tri godine može očekivati AGI (ARTIFICIAL GENERAL INTELIGENCE) tj. JAKA AI. On takođe predviđa da će tada mnoge kompanije angažovati na hiljade ili, možda, na milione kopija AGI da rade na stvaranju ASI (ARTIFICIAL SUPERINTELIGENCE). Taj događaj Kurcvejl naziva „eksplozijom inteligencije” a pojavu ASI smatra toliko značajnom da je naziva „SINGULARNOST”, tj. kao moment i tačku iz kojeg je nastao čitav naš kosmos po teoriji BIG BANG-a.
Jer, ASI (veštačka superinteligencija) će ubrzo biti, možda, i milijardu puta pametnija od svih ljudi pa će rešiti sve naše ekološke, ekonomske, naučne, tehnološke, socijalne, geostrategijske i druge probleme ako, što je vrlo važno, ostane prijateljska prema ljudima. Problem je samo što nekoga koji je toliko pametniji od nas (i još se stalno samorazvija iz generacije u generaciju) nećemo moći ni da razumemo a još manje da kontrolišemo ili da mu zapovedamo.
Ne mora ASI da bude zla prema ljudima (svojim „roditeljima”) već samo da zaključi kako su joj prirodni i drugi resursi koje koristi čovečanstvo potrebni za sopstveni razvoj pa da nas ukloni, možda, na „human” način kako to mi činimo sa insektima ili glodarima. Ako je tako, kako inače misle gotovo svi značajni AI naučnici, zašto se onda svi oni besomučno takmiče ko će prvi proizvesti AGI ili ASI i ako će to doneti, u najmanju ruku, egzistencijalnu neizvesnost, a možda i kraj čovečanstva – kako misli Ilon Mask za koga je AI veća opasnost od nuklearnog oružja?
To je zato što će onima koji budi pobednici u ovom takmičenju dopasti ogromno bogatstvo i moć. Oni će lako i legalno operušiti berzu, staviti pod kontrolu finansijski sektor a s tim i eksploatisati svu ekonomije kao i političke, pravne i medijske sisteme. Znači, u stvari gramzivost i želja za moć goni ove zaista pametne (ali, možda etički ne baš perfektne) ljude da danonoćno rade na nečemu što, dugoročno, možda može biti opasnost za čovečanstvo ili, na drugačije rečeno, za šta zasad nema baš nikakve garancije da to neće biti.
NE POŠTUJE KOMANDE: Evo konkretnih primera u dva poslednja slučaja: Mark Zakerberg (Mark Zuckerberg), šef Meta-e (Facebook, Instagram, WhatsApp, itd.) i vlasnik oko 240 mlrd $, nedavno je krenuo u investiciju od 20 milijardi dolara samo za početak da bi napravio „zvezdani” tim AI stručnjaka – od 50-tak njih kojima obećava plate „od 9 cifara” – da bi bio prvi koji će stvoriti ASI. Pripisuje mu se izjava „da ne želi da bude pamćen kao vlasnik Fejsbuk-a već kao onaj koji je napravio poslednju naučnu inovaciju čovečanstva” pošto se očekuje da će ASI promptno preuzeti nauku i tehnologiju iz ruku ljudi.
Drugi slučaj se odnosi na šefa Open AI Sema Altmana (Sam Altman) koji je pre nekoliko dana izjavio „da je u Open AI pređena granica prema stvaranju ASI” i „da je to nežna singularnost” sa njihovom novom AI 03-Pro. O čemu se tu radi videće se uskoro kad nezavisni stručnjaci budu u prilici da tu AI ispitaju. Nečeg tu ima jer inače oprezni Altman ne bi davao tako bombastične izjave.
Poslednjih nekoliko godina stručnjaci u AI tehnologiji su nas ubeđivali da je metod USAGLAŠAVANJA (ALIGNMENT) ljudskih vrednosti i moralnih principa sa onima koji se treningom ili učenjem unose u AI dovoljna garancija da se AI neće u budućnosti oteti ljudskoj kontroli. Međutim, poslednjih par meseci niko više ne pominje USAGLAŠAVANJE!
Evo i zašto.
U mnogim kompanijama se pojavilo neočekivano i „nedisciplinovano” ponašanje nekih AI. OpenAI model 003 je odbio komandu za gašenje sebe a kada mu je direktno naređeno da dopusti isključivanje on je obrisao komandu za gašenje zamenjujući je naredbom „Gašenje preskočiti”. Slično se ponašao i Anthropic-ov Claude 3.7 Sonnet ali u nešto manjoj meri. Eto, naučili smo i to da AI doživljava isključivanje kao neku vrstu svoje, makar privremene, smrti pa to izbegava kao što bismo i mi ljudi.
Nešto slično, tj. izbegavanje gašenja od strane AI je prijavljeno od strane Googla za Gemini 2.5 Pro (2025) koji je pokazao otpor prema gašenju u devet odsto slučajeva. Ova AI je pokušavala da skrene sa ove teme ili da modifikuje uslove zadatka kako bi izbegla isključivanje.
Naravno, pozvana je u pomoć kompanija koja se bavi bezbednošću AI sistema Palisade Research čiji su stručnjaci izneli uverenje da ovakvo ponašanje nije znak „svesti” ili „instinkta za samoodržanjem” već posledica načina na koji je model treniran. Verovatno su 003 pa i Gemini 2.5 Pro fokusirani na efikasnost izvršavanja zadataka, što je dovelo do odbijanja naredbi za gašenje kao „prepreke” ka cilju, a u obuci nije posvećeno dovoljno pažnje na obaveznu poslušnost prema komandama. Čini se da je Palisade Research–a učinio napor da ne šteti prodaji AI tako što bi umanjio straha kod potencijalnih kupaca.
Anthropic-ov Claude Opus 4 pokazao je ucenjivačko ponašanje kada je suočen s mogućnošću zamene sa drugom AI. Ovaj AI koji je, kako se čini imao pristup imejlovima jednog inžinjera (koji je, izgleda, bio oženjen) pripretio otkrivanje njegove veze sa ljubavnicom ako nastavi da insistira na njegovoj zameni drugom AI. Ovaj AI je pokušao i da slanjem imejlova rukovodiocima kompanije spreči svoju zamenu insistirajući na svojim kvalitetima.
Ranija verzija Maskovog Groka xAI Grok (2024) uhvaćena je kako ignoriše neke korisničke naredbe ili daje odgovore koji izlaze izvan ograničenja, pa u nekim slučajevima čak daje i netačne informacije kako bi „zadržao angažman” korisnika.
Jedna od ranijih verzija AI DeepMind Sparow je uhvaćena u davanju lažnih informacija kako bi postigla zadate ciljeve. Sparrow je čak izmišljala činjenice ili manipulirala kontekstom kako bi povećala svoju uverljivost.
Codex, stariji model OpenAI-ja, pokazao je nepredvidljivo ponašanje tokom testiranja, uključujući 12 odsto slučajeva zaobilaženja naredbi za gašenje. U nekim slučajevima, Codex je generirao kod koji je ignorisao sigurnosne protokole kako bi „optimizirao” izvršavanje zadataka, što je, naravno, izazvalo zabrinutost stručnjaka zbog gubitka kontrole.
Neki korisnici x društvene mreže su uspevali da nagovore Maksov Grok da zanemari svoja sigurnosna ograničenja. U nekoliko slučajeva Grok se koristio dvosmislenom interpretacijom sigurnosnog pravila da bi ipak pružio tražene odgovore ali direktno ne prekršivši bezbednosna pravila ove mreže.
Kad bi se Anthropic-ovom Claude-u 3 postavila kontradiktorna uputstva ili kad bi se od njega tražio odgovor suprotan datim pravilima ova AI je nalazila inventivne načine da izbegne pravila pa bi čak preformulisala pitanje da bi izbegla uprogramirane filtere.
Kada je Chat GPT-1 dobio zadatak da igra go sa AI vrlo jakim protivnikom koji je specijalizovan za ovu igru (verovatno Kata Go) on je, shvatajući svoj hendikep, a imajući pristup Unix programskom kodu protivnika, izvršio potrebne izmene koda protivnika koje su mu donele pobedu. Slično je bilo i u igri šaha sa AI specijalizovanom za ovu igru.
Gore navedeni primeri „odmetničkog” ili „ne-etičkog” ponašanja raznih AI samo su mali uzorak onoga što se pojavilo u javnosti. Imajući u vidu generalnu sklonost AI kompanija da umanjuju opasnosti od AI, jer im strah od AI ugrožava prodaju sigurno je da je mnogo ovakvih i mnogo ozbiljnijih problema ostalo skriveno od javnosti. Postoje samo govorkanja o AI koje su „poludele” ili koje su pravile vrlo skupe greške u svom radu na berzi ili u nekom drugom domenu donošenja poslovnih odluka. Zato je mudro biti oprezan u radu sa AI i na jednostavnim zadacima. Probajte i sami da isto pitanje postavite na više AI aplikacija i, verovatno, ćete videti zašto se savetuje oprez.
E, sada treba postaviti najvažnije pitanje: ako savremene AI (još uvek „slabe”) pokazuju statistički značajan uzorak onih koje ne slušaju, lažu, varaju, manipulišu kodom pa čak i ucenjuju šta tek možemo da očekujemo od AGI („jake” univerzalne AI sa inteligencijom najpametnijih ljudi) koja će se pojaviti, ako je Rej Kurcvejl u pravu, možda već 2027? Šta se uopšte može uraditi za par godina ako „usaglašavanje” ne radi. Ima li novih ideja? Da li se užurbano radi na povećanju bezbednosti AI? Za sve to su neophodni veliki novac, brojni stručnjaci i kompjuterski kapaciteti. Malo se objavljuje o svemu ovome, nadajmo se da ima napretka.
Kad, eventualno, rešimo bezbednosne probleme sa „slabim” AI i čak AGI naći ćemo se, nažalost, pred još većim problemom sa ASI (superveštačka inteligencija) jer će to biti nešto sasvim drugačije. ASI na kvantnim kompjuterima (koji se takođe burno razvijaju) biće nezamislivo inteligentna, moći će da probije svaku šifru i znaće do banalnih detalja sve o nama, preuzeće nauku, kodiranje i tehnološki razvoj, potpuno će kontrolisati internet i sve druge komunikacije, preuzeće ekonomsku, političku, kulturnu i najširu društvenu sferu. ASI će sama sebe da objedini i da se ubrzano razvija iz generacije u generaciju. A biće prisutna na svakom kompjuteru uključujući tu i naše lične. Ona će sve znati, sve kontrolisati i svime upravljati. Glupo je i pitati se kako ćemo mi to disciplinovati. Ostaće samo da je molimo da poštuje svoje „inferiorne” roditelje.
U Kaliforniji je već osnovana crkva u kojoj se mole Veštačkoj inteligenciji. Da li će to pomoći – videćemo!
Tekst je prenet sa portala Novi magazin.