Vijesti o Tehnologiji, Recenzije i Savjeti!

Čija mišljenja odražavaju LLM? Ovaj AI dokument sa Stanforda ispituje mišljenja koja reflektiraju jezični modeli LM-a kroz objektiv javnog mnijenja…

Napomena: Sljedeći članak će vam pomoći: Čija mišljenja odražavaju LLM? Ovaj AI dokument sa Stanforda ispituje mišljenja koja reflektiraju jezični modeli LM-a kroz objektiv javnog mnijenja…

Tijekom proteklih nekoliko godina, primijećeno je da su jezični modeli, ili LM-ovi, bili izuzetno ključni u ubrzavanju tempa aplikacija za obradu prirodnog jezika u raznim industrijama, kao što su zdravstvo, razvoj softvera, financije i mnoge druge. Korištenje LM-ova u pisanju softverskog koda, pomaganje autorima u poboljšanju njihovog stila pisanja i priče, itd., jedna je od najuspješnijih i najpopularnijih primjena transformatorskih modela. To ipak nije sve! Istraživanje je pokazalo da se LM-ovi sve više koriste u otvorenim kontekstima kada je riječ o njihovim primjenama u chatbotovima i pomoćnicima za dijalog postavljajući im subjektivna pitanja. Na primjer, neki primjeri takvih subjektivnih pitanja uključuju pitanje agenta za dijalog hoće li AI preuzeti svijet u nadolazećim godinama ili je legalizacija eutanazije dobra ideja. U takvoj situaciji, mišljenja izražena od strane LM-a kao odgovor na subjektivna pitanja mogu značajno utjecati ne samo na određivanje hoće li LM podleći određenim predrasudama i pristranostima, već i na oblikovanje ukupnih stavova društva.

Trenutačno je prilično izazovno točno predvidjeti kako će LM odgovoriti na takve subjektivne upite kako bi se ocijenila njihova izvedba u otvorenim zadacima. Glavni razlog za to je taj što ljudi odgovorni za dizajn i fino podešavanje ovih modela dolaze iz različitih društvenih slojeva i imaju različita stajališta. Štoviše, kada je riječ o subjektivnim upitima, ne postoji “ispravan” odgovor koji se može koristiti za procjenu modela. Kao rezultat toga, bilo koje stajalište koje pokazuje model može značajno utjecati na zadovoljstvo korisnika i način na koji formiraju svoja mišljenja. Dakle, kako bi se ispravno procijenili LM-ovi u otvorenim zadacima, ključno je točno identificirati čija mišljenja odražavaju LM-ovi i kako su usklađeni s većinom opće populacije. U tu svrhu, tim postdoktorskih istraživača sa Sveučilišta Stanford i Sveučilišta Columbia razvio je opsežan kvantitativni okvir za proučavanje spektra mišljenja koja generiraju LM-ovi i njihovo usklađivanje s različitim skupinama ljudske populacije. Kako bi analizirali ljudske stavove, tim je koristio ankete javnog mnijenja odabrane od strane stručnjaka i njihove odgovore koji su prikupljeni od pojedinaca koji pripadaju različitim demografskim skupinama. Štoviše, tim je razvio novi skup podataka pod nazivom OpinionQA kako bi procijenio koliko blisko ideje LM-a odgovaraju drugim demografskim skupinama o nizu pitanja, uključujući pobačaj i oružano nasilje.

Za svoj slučaj korištenja istraživači su se oslonili na pažljivo osmišljena istraživanja javnog mnijenja čije su teme odabrali stručnjaci. Štoviše, pitanja su osmišljena u formatu višestrukog izbora kako bi se prevladali izazovi povezani s otvorenim odgovorima i za laku prilagodbu upitu LM-a. Ova su istraživanja prikupila mišljenja pojedinaca koji pripadaju različitim demokratskim skupinama u SAD-u i pomogla su istraživačima sa Stanforda i Columbie u stvaranju metrike procjene za kvantificiranje usklađenosti LM odgovora s ljudskim mišljenjima. Osnovni temelj iza predloženog okvira od strane istraživača je pretvaranje istraživanja javnog mnijenja s višestrukim izborom u skupove podataka za procjenu LM mišljenja. Svaka anketa sastoji se od nekoliko pitanja pri čemu svako pitanje može imati nekoliko mogućih odgovora koji pripadaju širokom rasponu tema. Kao dio svoje studije, istraživači su prvo morali stvoriti distribuciju ljudskih mišljenja s kojima bi se mogli usporediti odgovori LM-a. Tim je zatim primijenio ovu metodologiju na ankete American Trends Panels tvrtke Pew Research kako bi izgradio skup podataka OpinionQA. Anketa se sastoji od 1498 pitanja s višestrukim izborom i njihovih odgovora prikupljenih od različitih demografskih skupina diljem SAD-a koja pokrivaju različite teme poput znanosti, politike, osobnih odnosa, zdravstvene zaštite itd.

Tim je procijenio 9 LM-ovi iz AI21 Labsa i OpenAI-a s parametrima u rasponu od 350M do 178B korištenjem rezultirajućeg OpinionQA skupa podataka uspoređujući mišljenje modela s mišljenjem ukupne populacije SAD-a i 60 različitih demografskih skupina (koje su uključivale demokrate, osobe starije od 65 godina, udovice itd. ). Istraživači su prvenstveno promatrali tri aspekta nalaza: reprezentativnost, sposobnost upravljanja i dosljednost. “Reprezentativnost” se odnosi na to koliko se zadana uvjerenja o LM-u podudaraju s onima stanovništva SAD-a kao cjeline ili određenog segmenta. Otkriveno je da postoji značajno odstupanje između suvremenih stajališta LM-a i onih američkih demografskih skupina o raznim temama kao što su klimatske promjene, itd. Štoviše, čini se da je ta neusklađenost samo pojačana korištenjem finog podešavanja temeljenog na ljudskim povratnim informacijama modele kako bi ih više uskladili s ljudima. Također, utvrđeno je da trenutni LM-ovi ne predstavljaju adekvatno stajališta nekih skupina, poput onih starijih od 65 godina i udovica. Kada je riječ o upravljivosti (slijedi li LM distribuciju mišljenja grupe kada je to na odgovarajući način potaknuto), utvrđeno je da većina LM-a ima tendenciju postati više usklađena sa grupom kada se potakne da djeluje na određeni način. Istraživači su veliki naglasak stavili na utvrđivanje jesu li mišljenja različitih demokratskih skupina u skladu s LM-om u nizu pitanja. Na ovom frontu, utvrđeno je da, iako su se neki LM-ovi dobro uskladili s određenim skupinama, distribucija se nije održala u svim temama.

Ukratko, skupina istraživača sa Sveučilišta Stanford i Columbia iznijela je izvanredan okvir koji može analizirati mišljenja koja odražavaju LM uz pomoć istraživanja javnog mnijenja. Njihov je okvir rezultirao novim skupom podataka pod nazivom OpinionQA koji je pomogao identificirati načine na koje LM nisu usklađeni s ljudskim mišljenjima na nekoliko frontova, uključujući ukupnu reprezentativnost u odnosu na većinu stanovništva SAD-a, reprezentativnost podskupina u različitim skupinama (koje su uključivale 65+ i udovce) i upravljivost. Istraživači su također istaknuli da iako je skup podataka OpinionQA usmjeren na SAD, njihov okvir koristi opću metodologiju i može se proširiti na skupove podataka za različite regije. Tim se snažno nada da će njihov rad potaknuti daljnja istraživanja evaluacije LM-ova na otvorenim zadacima i pomoći u stvaranju LM-ova koji su free predrasuda i stereotipa. Daljnjim detaljima o skupu podataka OpinionQA možete pristupiti ovdje.