Vijesti o Tehnologiji, Recenzije i Savjeti!

Istraživanje razlika između ChatGPT/GPT-4 i tradicionalni jezični modeli: Utjecaj potkrepljenog učenja iz ljudske povratne informacije (RLHF)

Napomena: Sljedeći članak će vam pomoći: Istraživanje razlika između ChatGPT/GPT-4 i tradicionalni jezični modeli: Utjecaj potkrepljenog učenja iz ljudske povratne informacije (RLHF)

GPT-4 je objavljen i već je u naslovima. To je tehnologija koja stoji iza popularnog ChatGPT-a koji je razvio OpenAI i koja može generirati tekstualne informacije i oponašati ljude koji odgovaraju na pitanja. Nakon uspjeha GPT-a 3.5GPT-4 najnovija je prekretnica u povećanju dubinskog učenja i generativne umjetne inteligencije. Za razliku od prethodne verzije, GPT 3.5koji ChatGPT-u omogućuje samo tekstualne unose, najnoviji GPT-4 je multimodalne prirode. Prihvaća tekst kao i slike kao unos. GPT-4 je model transformatora koji je prethodno obučen za predviđanje sljedećeg tokena. Fino je podešen korištenjem koncepta učenja pojačanja iz povratnih informacija ljudi i umjetne inteligencije i koristi javne podatke kao i licencirane podatke trećih strana.

Evo nekoliko ključnih točaka o tome kako modeli poput ChatGPT/GPT-4 razlikuje od tradicionalnih jezičnih modela u svojoj niti tweeta.

Glavni razlog zbog kojeg se najnoviji GPT model razlikuje od tradicionalnih je korištenje koncepta potkrepljenog učenja iz ljudske povratne informacije (RLHF). Ova tehnika se koristi u obuci jezičnih modela kao što su GPT-4, za razliku od tradicionalnih jezičnih modela u kojima se model uvježbava na velikom korpusu teksta, a cilj je predvidjeti sljedeću riječ u rečenici ili najvjerojatniji niz riječi uz opis ili upit. Nasuprot tome, učenje s potkrepljenjem uključuje uvježbavanje jezičnog modela korištenjem povratnih informacija od ljudskih procjenitelja, što služi kao signal nagrade koji je odgovoran za ocjenu kvalitete proizvedenog teksta. Ove metode ocjenjivanja slične su BERTscoreu i BARTscoreu, a jezični model se stalno ažurira kako bi improvizirao ocjenu nagrade.

Model nagrađivanja je u osnovi jezični model koji je unaprijed uvježban na velikoj količini teksta. Sličan je modelu osnovnog jezika koji se koristi za izradu teksta. Joris je dao primjer DeepMindovog Sparrowa, jezičnog modela obučenog pomoću RLHF-a i pomoću tri prethodno obučena modela 70B Chinchilla. Jedan od tih modela koristi se kao osnovni jezični model za generiranje teksta, dok se druga dva koriste kao zasebni modeli nagrađivanja za proces evaluacije.

U RLHF-u podaci se prikupljaju traženjem od ljudskih anotatora da odaberu najbolje proizvedeni tekst uz upit; ti se izbori zatim pretvaraju u skalarnu vrijednost preferencije, koja se koristi za treniranje modela nagrađivanja. Funkcija nagrađivanja kombinira procjenu iz jednog ili više modela nagrađivanja s ograničenjem promjene politike koja je osmišljena da minimizira odstupanje (KL-divergencija) između distribucija izlaza iz izvorne politike i trenutne politike, čime se izbjegava prekomjerno prilagođavanje. Politika je samo jezični model koji proizvodi tekst i nastavlja se optimizirati za proizvodnju visokokvalitetnog teksta. Optimizacija proksimalne politike (PPO), koja je algoritam učenja s pojačanjem (RL), koristi se za ažuriranje parametara trenutne politike u RLHF.

Joris Baan je spomenuo potencijalne pristranosti i ograničenja koja mogu proizaći iz prikupljanja ljudskih povratnih informacija za treniranje načina nagrađivanja. U dokumentu InstructGPT-a, jezičnom modelu koji slijedi ljudske upute, istaknuto je da ljudske preferencije nisu univerzalne i mogu varirati ovisno o ciljanoj zajednici. To implicira da podaci korišteni za treniranje modela nagrađivanja mogu utjecati na ponašanje modela, što dovodi do neželjenih rezultata.

U tweetu se također spominje da algoritmi za dekodiranje izgleda igraju manju ulogu u procesu obuke, a uzorkovanje predaka, često s skaliranjem temperature, zadana je metoda. To bi moglo značiti da RLHF algoritam već usmjerava generator na specifične strategije dekodiranja tijekom procesa obuke.

Zaključno, korištenje ljudskih preferencija za treniranje modela nagrađivanja i vođenje procesa generiranja teksta ključna je razlika između jezičnih modela koji se temelje na učenju potkrepljenja kao što su ChatGPT/GPT-4 i tradicionalnih jezičnih modela. Omogućuje modelu generiranje teksta za koji je vjerojatnije da će ga ljudi visoko ocijeniti, što dovodi do boljeg i prirodnijeg jezika.