Vijesti o Tehnologiji, Recenzije i Savjeti!

Istraživači UC Berkeley predlažu novu tehniku ​​nazvanu lanac naknadne pameti (CoH) koja može omogućiti LLM-ima da uče iz bilo kojeg oblika povratne informacije, poboljšavajući…

Napomena: Sljedeći članak će vam pomoći: Istraživači UC Berkeley predlažu novu tehniku ​​nazvanu lanac naknadne pameti (CoH) koja može omogućiti LLM-ima da uče iz bilo kojeg oblika povratne informacije, poboljšavajući…

Tijekom posljednjih nekoliko godina, velike neuronske mreže privukle su značajnu pozornost istraživača. To je uglavnom zbog njihove izvanredne izvedbe u raznim zadacima, uključujući razumijevanje prirodnog jezika, rješavanje izazovnih matematičkih jednadžbi, pa čak i predviđanje strukture proteina. Ipak, kako bi se osiguralo da ovi modeli daju konstruktivan doprinos društvu, ključno je da budu usklađeni s ljudskim vrijednostima i uzimaju u obzir ljudske preferencije. Korištenje ljudskih povratnih informacija jedan je od najvažnijih aspekata u postizanju ovoga jer ljudima omogućuje procjenu izvedbe takvih modela na temelju širokog raspona metrika kao što su točnost, pravednost, pristranost itd., te nudi uvid u to kako ti modeli modeli se mogu poboljšati kako bi proizveli više etičkih rezultata. Kako bi se poboljšala učinkovitost uključivanja povratnih informacija korisnika, istraživači su tijekom posljednjih nekoliko godina eksperimentirali s nekoliko pristupa za sustave “ljud u petlji”. Rezultati pokazuju da su ChatGPT i InstructGPT pokazali nevjerojatne rezultate kao rezultat korištenja ljudske povratne informacije za učenje.

Ova poboljšanja performansi u jezičnom modeliranju uglavnom se pripisuju strategiji koja se oslanja na pristupe nadziranog finog podešavanja (SFT) i učenja s pojačanjem uz povratnu informaciju (RLHF). Iako su ove strategije značajno pridonijele postizanju obećavajućih rezultata u pogledu izvedbe jezičnog modela, one imaju svoje nedostatke. SFT se uglavnom oslanja na ljudske bilješke, što ove modele čini teškim za korištenje i neučinkovitim u korištenju podataka. S druge strane, budući da učenje s potkrepljenjem funkcionira na temelju funkcije nagrađivanja, vrlo je izazovno optimizirati ove modele.

Kako bi se suočili s ovim problemima, istraživači s kalifornijskog sveučilišta Berkeley razvili su novu tehniku ​​koja sve povratne informacije pretvara u rečenice i koristi ih za fino podešavanje modela kako bi razumio povratne informacije. Ova tehnika, poznata kao lanac naknadne pameti (CoH), uvelike je inspirirana načinom na koji ljudi obrađuju značajne povratne informacije dobivene u obliku jezika. Cilj istraživača pri osmišljavanju tehnike bio je kombinirati prednosti SFT-a i RLHF-a uz izbjegavanje korištenja učenja s potkrepljenjem kako bi se u potpunosti iskoristile sve povratne informacije. Njihov trenutni pristup koristi sposobnost jezika da razumije i uči iz povratnih informacija, u konačnici poboljšavajući sposobnost modela da izvrše širok raspon zadataka preciznije i učinkovitije.

Istraživači su iskoristili činjenicu da ljudi dobro uče iz bogatih povratnih informacija u obliku jezika. S obzirom na impresivne mogućnosti prethodno obučenih jezičnih modela za učinkovito učenje u kontekstu, istraživači su se zapitali o mogućnosti pretvaranja svih povratnih informacija u rečenicu i osposobljavanja modela da slijede povratne informacije. Detaljnije, istraživači su predložili fino podešavanje modela za predviđanje rezultata uz oslanjanje na jedan ili više sortiranih rezultata i njihove povratne informacije u obliku usporedbi. CoH nasumično odabire jedan ili više rezultata modela tijekom obuke i koristi ih za konstruiranje rečenice koja uključuje i pozitivne i negativne povratne informacije u obliku usporedbe. Na primjer, dvije primjerne rečenice mogu biti “Sljedeće je loš sažetak” i “Sljedeći sažetak je bolji.” Model koristi pozitivnu povratnu spregu u vrijeme zaključivanja za generiranje željenih rezultata.

CoH pristup omogućuje modelima učenje iz pozitivnih i negativnih povratnih informacija, dopuštajući prepoznavanje i ispravljanje negativnih atributa ili pogrešaka. Strategija ima i brojne dodatne prednosti. Oni uključuju organskiji stil povratnih informacija i sustav za obuku. Također, CoH tehnika uvelike nadmašuje ranije pristupe u korelaciji jezičnih modela s ljudskim preferencijama, prema brojnim eksperimentalnim procjenama koje su proveli istraživači. Metoda je poželjna u ljudskim procjenama i izuzetno se dobro pokazala na zadacima sažimanja i rasprave. Tim UC Berkeley čvrsto vjeruje da CoH ima ogroman potencijal za korištenje u budućnosti s raznim drugim vrstama povratnih informacija, kao što su automatske i numeričke povratne informacije.