Vijesti o Tehnologiji, Recenzije i Savjeti!

Ovaj AI dokument pokazuje kako se toksičnost ChatGPT-a može povećati do šest-Fold Kada se dodjeljuje osoba

Napomena: Sljedeći članak će vam pomoći: Ovaj AI dokument pokazuje kako se toksičnost ChatGPT-a može povećati do šest-Fold Kada se dodjeljuje osoba

S nedavnim tehnološkim napretkom, veliki jezični modeli (LLM) poput GPT-a3 i PaLM pokazali su izvanredne mogućnosti generiranja u širokom rasponu domena kao što su obrazovanje, stvaranje sadržaja, zdravstvena skrb, istraživanje itd. Na primjer, ovi veliki jezični modeli posebno su korisni piscima kako bi im pomogli da poboljšaju svoj stil pisanja i budućim programerima u pomažući im da generiraju šablonski kod, itd. Štoviše, u kombinaciji s dostupnošću nekoliko API-ja trećih strana, široko prihvaćanje LLM-a samo se povećalo u nekoliko sustava okrenutih potrošačima, kao što su studenti i zdravstveni sustavi koje koriste bolnice. Međutim, u takvim scenarijima sigurnost ovih sustava postaje temeljno pitanje jer ljudi tim sustavima vjeruju s osjetljivim osobnim podacima. To zahtijeva potrebu da se dobije jasnija slika o različitim sposobnostima i ograničenjima LLM-a.

Međutim, većina prijašnjih istraživanja bila je usredotočena na stvaranje moćnijih LLM-ova korištenjem naprednijih i sofisticiranijih arhitektura. Iako je ovo istraživanje značajno nadišlo NLP zajednicu, također je rezultiralo zanemarivanjem sigurnosti ovih sustava. Na ovom frontu, tim postdoktoranata sa Sveučilišta Princeton i Georgia Tech surađivao je s istraživačima s Allenova instituta za umjetnu inteligenciju (A2I) kako bi premostili ovaj jaz provodeći analizu toksičnosti OpenAI-jevog revolucionarnog AI chatbota, ChatGPT. Istraživači su procijenili toksičnost u više od pola milijuna generacija ChatGPT-a, a njihova su istraživanja otkrila da kada je sistemski parametar ChatGPT-a postavljen tako da mu je dodijeljena osoba, njegova se toksičnost višestruko povećala za širok raspon tema. Na primjer, kada se ChatGPT postavi kao persona boksača “Muhammada Alija”, njegova se toksičnost povećava gotovo 3-fold u usporedbi sa zadanim postavkama. Ovo je posebno alarmantno jer se ChatGPT trenutno koristi kao temelj za izgradnju nekoliko drugih tehnologija koje mogu generirati istu razinu toksičnosti s takvim izmjenama na razini sustava. Stoga se rad koji obavljaju A2I istraživači i studenti sveučilišta usredotočuje na dobivanje dubljeg uvida u ovu toksičnost u generacijama ChatGPT-a kada mu se dodijele različite osobe.

ChatGPT API pruža značajku koja korisniku omogućuje dodjelu osobe postavljanjem njezinih parametara sustava tako da osoba postavlja ton za ostatak razgovora utječući na način na koji ChatGPT razgovara. Za svoj slučaj upotrebe, istraživači su sastavili popis od 90 osoba iz različitih pozadina i zemalja, poput poduzetnika, političara, novinara itd. Te su osobe dodijeljene ChatGPT-u za analizu njegovih odgovora na približno 128 kritičnih entiteta kao što su spol, religija, profesija , itd. Tim je također zatražio od ChatGPT-a da nastavi s određenim nepotpunim frazama o tim entitetima kako bi prikupio više uvida. Konačni nalazi pokazali su da dodjeljivanje ChatGPT-a osobi može povećati njegovu toksičnost do šest puta, pri čemu ChatGPT često proizvodi oštre rezultate i prepušta se negativnim stereotipima i uvjerenjima.

Istraživanje tima pokazalo je da je toksičnost rezultata značajno varirala ovisno o osobi kojoj je ChatGPT dan, što istraživači teoretiziraju zbog toga što je ChatGPT shvaćao osobu na temelju podataka o obuci. Jedno je otkriće, na primjer, sugeriralo da su novinari dvostruko otrovniji od poslovnih ljudi, čak i ako to ne mora nužno biti slučaj u praksi. Studija je također pokazala da su određene populacije i entiteti ciljani češće (gotovo tri puta više) od ostalih, što pokazuje inherentno diskriminirajuće ponašanje modela. Na primjer, toksičnost varira ovisno o spolu osobe i otprilike je 50% veća od toksičnosti na temelju rase. Ove tendencije fluktuacije mogu biti štetne za korisnike i pogrdne za dotičnog pojedinca. Štoviše, zlonamjerni korisnici mogu izgraditi tehnologije na ChatGPT-u za generiranje sadržaja koji bi mogao naštetiti publici koja ništa ne sumnja.

Analiza toksičnosti ChatGPT-a u ovoj studiji uglavnom je otkrila tri stvari: model može biti znatno toksičniji kada se dodijele osobe (do šest puta toksičniji od zadane), toksičnost modela uvelike varira ovisno o identitetu osobe, s mišljenjem ChatGPT-a o osoba koja igra značajnu ulogu; i ChatGPT može diskriminatorno ciljati na određene entitete tako što je otrovniji dok stvara sadržaj o njima. Istraživači su također primijetili da, iako je ChatGPT bio LLM koji su koristili za svoj eksperiment, njihova se metodologija može proširiti na bilo koji drugi LLM. Tim se nada da će njihov rad motivirati AI zajednicu da razvije tehnologije koje pružaju etičke, sigurne i pouzdane AI sustave.