Vijesti o Tehnologiji, Recenzije i Savjeti!

Istraživači Meta AI i UPF predstavljaju Toolformer: jezični model koji na samonadgledan način uči kako koristiti različite alate kao što je Search…

Napomena: Sljedeći članak će vam pomoći: Istraživači Meta AI i UPF predstavljaju Toolformer: jezični model koji na samonadgledan način uči kako koristiti različite alate kao što je Search…

S nedavnim tehnološkim napretkom, veliki jezični modeli (LLM) postali su nevjerojatno popularni uglavnom zbog svojih izvanrednih performansi u nizu zadataka obrade prirodnog jezika. Jedan od njihovih najznačajnijih čimbenika razlikovanja je njihova impresivna sposobnost rješavanja novih zadataka iz samo nekoliko primjera ili tekstualnih upita. Zbog toga je prilično zapanjujuće da ovi naizgled sveznajući LLM-ovi često imaju problema s temeljnim funkcijama poput izvršavanja aritmetičkih operacija ili nemogućnosti pristupa ažurnim informacijama o nedavnim pojavama. U isto vrijeme, puno jednostavniji i manji modeli izvanredno se dobro ponašaju u ovom prostoru.

Istraživači su nastojali koristiti vanjske alate kao što su tražilice, kalkulatori ili kalendari zajedno s jezičnim modelima putem API-ja kako bi se suprotstavili ovim izazovima LLM-a. Nažalost, trenutne metode ili ograničavaju upotrebu alata na postavke specifične za zadatak ili uvelike ovise o ljudskim komentarima, što sprječava upotrebu alata u LLM-ovima da postane šira upotreba. Istraživači iz Meta AI Research i Universitat Pompeu Fabra zajedno su radili na ovoj istraživačkoj izjavi kako bi razvili Toolformer, model koji, na nov način, sam uči koristiti vanjske alate kao što su tražilice, kalkulatori i sustavi za prevođenje putem API poziva na poboljšati njegovu izvedbu na raznim nizvodnim zadacima. Toolformer je obučen za donošenje prosudbi, primjerice koje API-je pozvati, kada ih pozvati i kako na najbolji mogući način uključiti rezultate u buduće predviđanje tokena. Njihova publikacija, “Toolformer: Linguistic Models Can Train Themself to Use Tools,” pruža više informacija o njihovom istraživanju.

Prije konstruiranja modela, tim je prvo napisao preliminarni popis poboljšanja koja bi Toolformer trebao imati u usporedbi s postojećim jezičnim modelima. Prvi zahtjev je bio da se alati trebaju podučavati na način koji se samostalno nadzire, a da ne zahtijevaju puno ljudskih bilješki. Ne samo da su ljudske bilješke skupe i dugotrajne, već postoje i slučajevi kada se ono što ljudi smatraju vrijednim i ono što model smatra korisnim može razlikovati. Drugi je zahtjev bio da model može odabrati koji će alat koristiti kada i kako bez gubljenja svoje općenitosti. To omogućuje širu upotrebu alata budući da nisu specifični za zadatak.

Metodologija Toolformer koristi tehnike učenja u kontekstu kao temelj za stvaranje kompletnih skupova podataka od nule. S obzirom na nekoliko ručno napisanih primjera koji pokazuju kako se koristi određeni API, LLM označava veliki skup podataka modeliranja jezika s vjerojatnim API pozivima. Najbolji API za pomoć s budućim predviđanjem tokena na određenom zadatku identificira se pomoću samonadziranog gubitka. Istraživači su zatim fino prilagodili model na pozivima API-ja koji se smatraju najkorisnijima. Ovaj jednostavan samonadzirani pristup omogućuje LLM-u, poput Toolformer-a, da nauči kontrolu nad raznim alatima, uključujući kalkulator, sustav za odgovaranje na pitanja, tražilicu, sustav za prevođenje i kalendar. Važno je napomenuti da tim modelira svaki API kao niz teksta, dopuštajući da se API pozivi neprimjetno umetnu u bilo koji tekst. Kao rezultat toga, metoda je neovisna o skupu podataka za obuku, osiguravajući da model zadrži sve svoje mogućnosti općenitosti i jezičnog modeliranja.

Korištenje prethodno obučenog 6.7B parametra GPT-J LLM, istraživači su proveli brojne eksperimentalne procjene koristeći Toolformer. Neki od nizvodnih zadataka korištenih za evaluaciju uključivali su matematičko zaključivanje i odgovaranje na pitanja. Zaključeno je da je Toolformer postigao značajne zero-shot rezultate u eksperimentima, čime je nadmašio znatno veći GPT-3 model i druge osnovne linije bez ugrožavanja njegovih osnovnih sposobnosti modeliranja jezika. Ukratko, Toolformer je jezični model koji uči kako koristiti različite alate, kao što su tražilice, kalkulatori i sustavi za prevođenje, putem jednostavnih API poziva, na samonadgledan način. Jezični model značajno poboljšava zero-shot izvedbu na raznim nizvodnim zadacima, čak nadmašujući puno veći GPT-3 model.