▷ Novo istraživanje umjetne inteligencije sa Stanforda predstavlja alternativno objašnjenje za naizgled oštre i nepredvidive nove sposobnosti velikih jezičnih modela

Napomena: Sljedeći članak će vam pomoći: Novo istraživanje umjetne inteligencije sa Stanforda predstavlja alternativno objašnjenje za naizgled oštre i nepredvidive nove sposobnosti velikih jezičnih modela

Istraživači su dugo istraživali pojavne značajke složenih sustava, od fizike preko biologije do matematike. Komentar fizičara dobitnika Nobelove nagrade PW Andersona “Više je drugačije” jedan je značajan primjer. To ukazuje na to da se s porastom složenosti sustava mogu pojaviti nova svojstva koja se ne mogu (lako ili uopće) predvidjeti, čak ni iz preciznog kvantitativnog razumijevanja mikroskopskih detalja sustava. Zbog otkrića koja pokazuju velike jezične modele (LLM), kao što su GPT, PaLM i LaMDA, koji mogu demonstrirati ono što je poznato kao “emergentne sposobnosti” u raznim zadacima, Emerging je u posljednje vrijeme privukao veliki interes za strojno učenje.

Nedavno je jezgrovito navedeno da se “nastajuće sposobnosti LLM-a” odnose na “sposobnosti koje nisu prisutne u modelima manjih razmjera, ali su prisutne u modelima velikih razmjera; stoga se ne mogu predvidjeti jednostavnom ekstrapolacijom poboljšanja performansi na modelima manjih razmjera.” GPT-3 obitelj je možda prva pronašla takve nove vještine. Kasniji radovi naglašavali su to otkriće, pišući da je “uspješnost predvidljiva na općoj razini, izvedba na određenom zadatku ponekad se može pojaviti prilično nepredvidivo i naglo na razini”; zapravo, te novonastale sposobnosti bile su toliko zapanjujuće i nevjerojatne da se tvrdilo da bi se takvo “naglo, specifično skaliranje sposobnosti” trebalo smatrati jednom od dvije glavne značajke definiranja LLM-a. Dodatno, korištene su fraze “oštra lijeva skretanja” i “probojne sposobnosti”.

Ovi citati identificiraju dvije karakteristike koje razlikuju nove vještine u LLM-u:

1. Oštrina, koja se mijenja iz odsutnog u prividno trenutačno prisutno

2. Nepredvidivost, prijelaz na veličine modela koje se čine nevjerojatnima. Ove novootkrivene vještine privukle su veliko zanimanje, što je dovelo do pitanja poput Što određuje koje će se sposobnosti pojaviti? Što određuje kada će se vještine manifestirati? Kako mogu osigurati da se poželjni talenti uvijek pojave dok ubrzavaju pojavu nepoželjnih? Relevantnost ovih pitanja za sigurnost i usklađivanje umjetne inteligencije naglašena je novim sposobnostima, koje upozoravaju da bi veći modeli jednog dana mogli, bez prethodne najave, posjedovati neželjeno ovladavanje opasnim vještinama.

Istraživači sa Stanforda točnije promatraju ideju da LLM-ovi sadrže nove sposobnosti, nagle i neočekivane promjene u rezultatima modela kao funkciju skale modela na određenim zadacima u ovoj studiji. Naš skepticizam proizlazi iz nalaza da se čini da su nove vještine ograničene na mjere koje diskontinuirano ili nelinearno skaliraju stopu pogreške po tokenu bilo kojeg modela. Na primjer, oni pokazuju da na BIG-Bench testovima > 92% talenata u usponu potpada pod jednu od dvije metrike: Više opcija. Ako je izbor s najvećom vjerojatnošću 0ocjena def = 1; inače. Ako se izlazni niz savršeno podudara s ciljnim nizom, tada se točno podudaranje niza def = 1; drugo, 0.

Ovo otvara mogućnost drugačijeg objašnjenja za pojavu novih sposobnosti LLM-a: promjene koje se čine nagle i nepredvidive možda su izazvane istraživačevim izborom mjerenja. Unatoč tome što se stopa pogreške po tokenu obitelji modela mijenja glatko, kontinuirano i predvidljivo s povećanjem skale modela, ovo otvara mogućnost drugog objašnjenja.

Oni konkretno tvrde da istraživačev izbor metrike koja nelinearno ili diskontinuirano deformira stope pogreške po tokenu, nedostatak testnih podataka za točnu procjenu izvedbe manjih modela (što rezultira time da manji modeli izgledaju potpuno nesposobni izvršiti zadatak) i procjena premalog broja modela velikih razmjera su svi uzroci pojavnih sposobnosti koje su samo privid. Oni pružaju jednostavan matematički model za izražavanje svog alternativnog stajališta i pokazuju kako statistički podupire dokaze o novonastalim LLM vještinama.

Nakon toga, stavili su svoju alternativnu teoriju na test na tri komplementarna načina:

1. Korištenje InstructGPT / GPT-3 model obitelji, oni formuliraju, testiraju i potvrđuju tri predviđanja na temelju svojih alternativnih hipoteza.

2. Oni provode meta-analizu prethodno objavljenih podataka i pokazuju da se nove vještine pojavljuju samo za određene metrike, a ne za obitelji modela na zadacima (stupcima) u prostoru tripleta metrika zadataka-obitelj modela. Oni dalje pokazuju da mijenjanje mjere za izlaze iz fiksnih modela nestaje pojavu pojave.

3. Oni ilustriraju kako identični metrički izbori mogu proizvesti ono što se čini pojavnim vještinama namjernim induciranjem novih sposobnosti u dubokim neuronskim mrežama različitih arhitektura na različitim zadacima vida (koji, prema njihovom najboljem saznanju, nikada nisu dokazani).

Novo istraživanje umjetne inteligencije sa Stanforda predstavlja alternativno objašnjenje za naizgled oštre i nepredvidive nove sposobnosti velikih jezičnih modela

Preporučeno: