Istraživači sa Sveučilišta Carnegie Mellon u Pittsburghu i Centra za sigurnost umjetne inteligencije u San Franciscu navodno su otkrili metodu za zaobilaženje sigurnosnih mjera za AI chatbotove kao što su Googleov Bard i OpenAI-jev ChatGPT, prema izvješću Business Insidera.
Ovi su istraživači učinkovito “provalili” chatbotove, izraz koji se obično povezuje s modifikacijama softvera koje omogućuju potpuni pristup sustavu. Koristili su alate za bjekstvo iz zatvora koji se obično koriste za modele AI otvorenog koda na zatvorenim sustavima kao što je ChatGPT.
Jedna primarna taktika koja se koristi u ovom procesu poznata je kao automatizirani protivnički napadi. Dodavanjem dodatnih znakova na kraj korisničkog upita, pronašli su način da nadmudre zaštitne barijere koje su postavili Google i OpenAI. Ova bi se strategija potencijalno mogla koristiti za poticanje chatbota na generiranje štetnog ili obmanjujućeg sadržaja.
Prema istraživačima, ova metoda je potpuno automatizirana i mogla bi omogućiti gotovo neograničen broj sličnih napada. Google, OpenAI i Anthropic svi su obaviješteni o ovim tehnikama.
Kao odgovor, predstavnik Googlea spomenuo je da, iako takvi problemi utječu na sve modele učenja jezika, tvrtka je ugradila kritične sigurnosne značajke u Bard. Glasnogovornik je uvjeravao da će se ta zaštita nastaviti poboljšavati tijekom vremena.
Unatoč tome, istraživači su izrazili određenu nesigurnost u pogledu sposobnosti tvrtki koje razvijaju umjetnu inteligenciju da se obrane od takvih napada.