▷ Ovaj AI dokument demonstrira tijek obuke od kraja do kraja na modelu velikog jezika LLM-13 milijardi GPT-upotrebom razrijeđenosti i protoka podataka

Napomena: Sljedeći članak će vam pomoći: Ovaj AI dokument demonstrira tijek obuke od kraja do kraja na modelu velikog jezika LLM-13 milijardi GPT-upotrebom razrijeđenosti i protoka podataka

Implementacija sustava strojnog učenja u akademskoj i komercijalnoj domeni ubrzana je temeljnim modelima u domenama obrade prirodnog jezika i računalnog vida. Istraživači su predložili povećanje broja parametara za redove veličine kako bi izvukli dodatne mogućnosti iz ovih modela i trenirali na ogromnim korpusima podataka. Njihove primarne osobine samoregulacije i prilagodljivosti omogućuju razvoj širokog spektra aplikacija za rješavanje određenih problema, uključujući proizvodnju teksta, analizu osjećaja, segmentaciju slika i prepoznavanje slika.

Zbog energetskih i fizičkih ograničenja, temeljni hardver koji se koristi za treniranje tako ogromnih modela mora se skalirati proporcionalno parametrima modela. Istraženo je nekoliko tehnika za prevladavanje ovog računalnog izazova, uključujući restrukturiranje mreže, smanjenje mreže, kvantizaciju mreže, destilaciju znanja o dekompoziciji niskog ranga, prorijeđenost modela, itd. Različite vrste rijetkih pristupa iznesene su kako bi se smanjio intenzitet računanja i imitirali veze između neurona u ljudskom mozgu. Temeljna hardverska arhitektura predstavlja nove poteškoće kako metode razrijeđenosti napreduju i postaju široko korištene u aplikacijama za obuku i zaključivanje.

Dobro uravnotežen sustav mora tolerirati fluktuacije između postavljanja modela koji je tipično računalno intenzivno gust i memorijski intenzivno vrlo rijedak. Budući da postoji toliko potencijalnih obrazaca i tokova obuke, rijetka izračunavanja zahtijevaju fleksibilnost, programabilnost i učinkovitost hardvera sljedeće generacije umjesto samo dodavanja Tera-FLOP-ova i propusnosti memorije kako bi se zadovoljili računalni zahtjevi strojnog učenja. Dobra implementacija lakih metoda na prijateljskoj arhitekturi može učinkovito pomoći u prevladavanju postojećih prepreka poput enormne snage, visokih troškova stroja i dugog vremena obuke.

Brojni računalni okviri predloženi su kao odgovor na rast aplikacija strojnog učenja i umjetne inteligencije i njihovih svojstava. Uz konvencionalne arhitekture temeljene na CPU-u, neki primjeri su Google TPU, NVIDIA A100 Nvidia, Cerebras CS-2, Graphcore IPU i SambaNova RDU. Cijeli opseg mogućnosti ovih hardverskih i softverskih sustava, posebno u rukovanju širokim spektrom rijetkih i gustih aplikacija, ostaje za otkriti, unatoč nekoliko pokušaja procjene i usporedbe ovih sustava. Dodatno, mnogi od tih okvira još uvijek su u privatnom vlasništvu i nisu dostupni za javno istraživanje u javnoj domeni. Iako obećavajući, rijetki pristupi imaju dodatne poteškoće osim arhitektonske kompatibilnosti.

Točnost određenog modela, za razliku od samo guste osnovne linije, ovisi o širokom rasponu čimbenika, uključujući strukturiranu, polustrukturiranu nestrukturiranu rijetkost, postotke težine rijetkosti/aktivacijske rijetkosti i raspored obuke. Ovi čimbenici odluke moraju se utvrditi kako bi se dobili najsvježiji podaci o određenom modelu, što zahtijeva vrijeme i trud. Veliki jezični modeli, koji mogu prihvatiti niz jezičnih aplikacija, široko su rasprostranjeni temeljni modeli u NLP sektoru, kao što je 13B parametar GPT. Istraživači iz SambaNova Systems u ovoj studiji koriste ovaj model kako bi pokazali kako se rijetkost može uspješno uključiti u ciklus obuke od kraja do kraja kako bi se postigla ekvivalentna metrika točnosti.

Oni doprinose na sljedeće značajne načine:

• Temeljito ispitivanje međusobnog djelovanja mogućnosti rijetkosti, fuzije i protoka podataka.

• Demonstracija ubrzanja preko A100 korištenjem rijetkog GPT 13B na SambaNova RDU.

• Analiza statističkih podataka o gubicima, nultom i malom broju slučajeva 13B GPT modela u usporedbi s njegovom gustom osnovnom linijom

U samom radu nalazi se više detalja o njihovoj analizi.

Ovaj AI dokument demonstrira tijek obuke od kraja do kraja na modelu velikog jezika LLM-13 milijardi GPT-upotrebom razrijeđenosti i protoka podataka

Preporučeno: