▷ Ovaj rad s umjetnom inteligencijom pokazuje put za stvaranje velikih količina podataka o uputama s različitim razinama složenosti korištenjem LLM-a umjesto ljudi

Napomena: Sljedeći članak će vam pomoći: Ovaj rad s umjetnom inteligencijom pokazuje put za stvaranje velikih količina podataka o uputama s različitim razinama složenosti korištenjem LLM-a umjesto ljudi

Rezultati obuke LLM-a na podacima iz praćenja nastave u otvorenoj domeni su fenomenalni. Međutim, ručno razvijanje ove vrste podataka o uputama zahtijeva vrijeme i trud. Nadalje, ljudima će možda trebati pomoć u stvaranju vrlo složenih uputa. Mnogi nedavni napori zajednice za obradu prirodnog jezika (NLP) usmjereni su na podučavanje velikih jezičnih modela kako bi se bolje razumjeli i slijedili upute. Nedavna istraživanja su pokazala da LLM također mogu imati koristi od učenja. Stoga se ova vrsta podataka sada rutinski koristi za obuku i fino podešavanje LLM-a u otvorenoj domeni.

Evol-Instruct je revolucionarna metoda koja koristi LLM-ove za stvaranje golemih količina podataka o uputama različite složenosti; razvio ga je tim istraživača iz Microsofta i Sveučilišta u Pekingu. Proizvedene upute korištenjem timskog modela WizardLM ocijenjene su više u ljudskim procjenama od onih iz skupova podataka o uputama koje su izradili ljudi.

Postoje tri faze u razvoju Evol-Instruct:

Evolucija instrukcije
Evolucija odgovora na temelju novorazvijenog obrazovanja
Evolucija eliminacije

Za generiranje složenijih instrukcija iz jednostavne početne instrukcije, Evol-Instruct može izvesti dubinsko razvijanje (koje uključuje jednu od pet operacija: dodavanje ograničenja, produbljivanje, konkretiziranje, povećanje koraka obrazloženja i kompliciranje unosa) ili dubinsko razvijanje ( koji se sastoji u kreiranju nove instrukcije na temelju zadane instrukcije). Posljednja faza, Elimination Evolving, djeluje kao filtar za uklanjanje loših uputa.

Istraživači su koristili Evol-Instruct za generiranje uputa različitih stupnjeva složenosti. Zatim su kombinirali sve proizvedene podatke o uputama kako bi fino podesili LLaMA LLM i razvili svoj WizardLM model u empirijskoj studiji. WizardLM je procijenjen u odnosu na industrijske standardne alate kao što su ChatGPT, Alpaca i Vicuna.

Istraživači su prvenstveno zaključili sljedeće:

Upute Evol-Instructa nadmašuju upute ShareGPT-a koje su razvili ljudi. Model WizardLM znatno nadmašuje Vicunu pri finom podešavanju LLaMA 7B koristeći istu količinu podataka Evol-Instruct (tj. 70k), uz stopu pobjede od 12.4% veći od vikunje (41.3% u odnosu na 28.9%).
Kada im se daju teške upute za testiranje, etiketeri su zadovoljniji rezultatima WizardLM-a nego rezultatima ChatGPT-a. WizardLM je izgubio od ChatGPT-a za 12.8% na testnom setu, sa stopom pobjede od 28.0% u usporedbi s 40.8% za ChatGPT. Međutim, WizardLM nadmašuje ChatGPT za 7.9 postotnih bodova u dijelu testa visoke težine (razina težine 8), sa stopom pobjeda od 42.9% naspram 35.0%. Ovo sugerira da ova tehnika uvelike povećava sposobnost velikih jezičnih modela za rukovanje kompliciranim uputama.

Autori studije pokazuju da su izlazi modela WizardLM odabrani umjesto izlaza OpenAI ChatGPT procjenom ishoda ljudskih procjena komponente visoke složenosti. Rezultati pokazuju da je fino podešavanje korištenjem uputa razvijenih AI potencijalni put za jačanje velikih jezičnih modela, čak i ako WizardLM još uvijek stoji iza ChatGPT-a u nekoliko pogleda. I izvorni kod i izlazni podaci mogu se vidjeti na https://github.com/nlpxucan/WizardLM.

Istraživači koriste sljedeća tri LLM-a kao naše polazišne točke:

OpenAI je stvorio AI chatbot ChatGPT kako bi omogućio razgovor na prirodan i zanimljiv način. Temelji se na LLM-ovima obučenim korištenjem ogromne količine tekstualnih podataka s interneta, kao što su GPT-3.5 i GPT-4. Nadzirane metode i metode učenja s pojačanjem koriste se za fino podešavanje ChatGPT-a pod nadzorom ljudskih trenera.

Alpaca je inicijativa Sveučilišta Stanford za stvaranje i širenje a free, paradigma koju pokreće zajednica za praćenje uputa. Model je razvijen korištenjem 52.000 instanci praćenja uputa stvorenih upitima OpenAI-jevog text-davinci003 modela i izgrađen je na LLaMA 7B, velikom jezičnom modelu obučenom na nekoliko tekstualnih izvora.

Vicuna, chatbot otvorenog koda, može korisnicima pružiti ljudske i zanimljive odgovore. Na temelju LLaMA 13B, fino je podešen pomoću podataka iz 70.000 razgovora koje su podijelili korisnici na ShareGPT-u.

Istraživači koriste ChatGPT za procjenu složenosti i težine svake upute, što im omogućuje dublje pronicanje u proces evolucije instrukcija. U skladu s modelom licence LLaMA, istraživači puštaju [WizardLM] utezi u obliku delta utega. WizardLM težine mogu se dobiti dodavanjem delta početnim LLaMA težinama.

Istraživači koriste skup za procjenu ljudskih instrukcija za usporedbu izlaza čarobnjaka s onima koje generiraju ljudski procjenitelji. Napravljena je slijepa usporedba u paru između čarobnjaka i kontrola. Prikupljanje podataka o procjeni autora obuhvaća mnoge zadatke usmjerene na korisnika, od složenog kodiranja i otklanjanja pogrešaka do matematičkog razmišljanja, razmišljanja o složenim formatima, akademskog pisanja i opsežnih disciplina.

Ovi rezultati pokazuju da Evol-Instructov pristup uputama razvijen od strane umjetne inteligencije može uvelike poboljšati izvedbu LLM-a i opremiti modele novcem za rješavanje izazovnih i složenih uputa, poput onih koje uključuju matematičko računanje, programski razvoj i logičko promišljanje.

Ovaj rad s umjetnom inteligencijom pokazuje put za stvaranje velikih količina podataka o uputama s različitim razinama složenosti korištenjem LLM-a umjesto ljudi

Preporučeno: