▷ Ovaj novi BERT je puno brži i manji od originala

Napomena: Sljedeći članak će vam pomoći: Ovaj novi BERT je puno brži i manji od originala

Nedavno su istraživači na Amazon predstavio optimalni podskup popularne BERT arhitekture za pretraživanje neuronske arhitekture. Ova manja verzija BERT-a poznata je kao BORT i može se unaprijed obučiti za 288 GPU sati, što je 1.2% vremena potrebnog za prethodnu obuku BERT parametarske arhitektonske varijante s najboljim performansama, RoBERTa-large.

Od svog početka, BERT je postigao nekoliko revolucionarnih zadataka u području obrade prirodnog jezika (NLP) i razumijevanja prirodnog jezika (NLU). Imao je snažan utjecaj i na području jezičnog modeliranja.

Međutim, nekoliko se puta upotrebljivost BERT-a smatrala problemom za razne ozbiljne zabrinutosti, kao što su njegova veća veličina, sporo vrijeme zaključivanja, složeni proces prije obuke, između ostalog.

Zbog toga je pronalaženje komprimirane BERT arhitekture visokih performansi aktivno područje istraživanja otkad je objavljen izvorni članak. Istraživači su pokušavali izvući jednostavniju pod-arhitekturu ovog jezičnog modela koji održava sličnu izvedbu svog prethodnika uz pojednostavljivanje procesa prije obuke, kao i vremena zaključivanja – s različitim stupnjevima uspjeha. Najistaknutije studije vezane uz to uključuju TinyBERT, DistilBERT, BERT-of-Theseus, između ostalih.

Ali mnogo puta takav pokušaj ne uspije jer je izvedba takve pod-arhitekture još uvijek zasjenjena izvornom implementacijom u smislu točnosti. Uz to, izbor skupa arhitektonskih parametara u tim radovima često se čini proizvoljnim.

Iza BORT-a

BORT je optimalna pod-arhitektura iz BERT varijante visokih performansi i 16% je veličine BERT-large. Također izvodi zaključak osam puta brže na CPU-u. Kako bi izdvojili podskup BERT-a, istraživači su koristili aproksimacijski algoritam, poznat kao potpuno polinomijalna vremenska aproksimacijska shema ili FPTAS. Prema istraživačima, pod određenim uvjetima, ovaj algoritam može učinkovito izdvojiti takav skup s optimalnim jamstvima.

Istraživači su razmatrali problem izdvajanja skupa arhitektonskih parametara za BERT koji je optimalan za tri metrike, a to su latencija zaključivanja, veličina parametra i stopa pogreške.

BORT je usko povezan sa specifičnom varijacijom RoBERTa arhitekture jer se maksimalna točka i rječnik temelje na RoBERTa. Prema navodima istraživača, s obzirom na karakterizaciju skupa arhitektonskih parametara, Bortov model prilično je sličan drugim komprimiranim varijantama arhitekture BERT modela. Pri tome bi najintrigantnija činjenica bila da je dubina mreže D = 4 za sve modele osim jednog – što pruža dobru empirijsku provjeru s obzirom na naše eksperimentalne postavke.”

Korišteni skup podataka

Za obuku modela istraživači su kombinirali korpuse dobivene iz Wikipedije, Wiktionaryja, OpenWebTexta (Gokaslan i Cohen, 2019.), UrbanDictionaryja, Onel Billion Words (Chelba et al., 2014.), podskupa vijesti Common Crawl (Nagel, 2016.)10 , i Bookcorpus. To je bilo zbog zahtjeva za posjedovanjem dovoljno raznolikog skupa podataka za prethodnu obuku Borta.

Istraživači su dodatno procijenili popularne javne NLU mjerila kao što su GLUE, SuperGLUE i Reading Comprehension from Examinations (RACE). BORT je postigao značajna poboljšanja u svim njima u odnosu na BERT-large

Prilozi

Doprinosi u ovom istraživanju navedeni su u nastavku –

Istraživači su razmatrali problem izdvajanja skupa arhitektonskih parametara za BERT koji je optimalan u odnosu na tri metrike, a to su latencija zaključivanja, veličina parametra i stopa pogreške. Izdvojili su optimalnu pod-arhitekturu iz BERT varijante visokih performansi, poznate kao BORT.BORT je 16 posto veći od BERT-large i izvodi zaključivanje osam puta brže na CPU-u. Prema istraživačima, tijekom preduvježbavanja BORT-a, utvrđeno je da je vrijeme potrebno za preduvježbavanje modela nevjerojatno poboljšan u odnosu na svoj izvorni parnjak. BORT se također procjenjuje na popularnim mjerilima kao što su GLUE, SuperGLUE itd. i postigao je značajna poboljšanja u svim mjerilima u odnosu na BERT-large model.

Završavati

U usporedbi s vremenom treninga za BERT-large, koje je 1,153 GPU sata za svjetski rekord na istom hardveru, ali s deset puta manjim skupom podataka, i RoBERTa-large, što iznosi 25 764 sata s malo većim skupom podataka, BoORT ostaje učinkovitiji od ova dva popularna modela. Također, prema istraživačima, ova usporedba je netočna, jer su okviri tehnologije dubokog učenja koji se koriste za obuku ovih modela promijenjeni, iako je isti model GPU-a korišten posvuda.

BORT je manji, brži i učinkovitiji za prethodnu obuku i može nadmašiti gotovo svakog drugog člana obitelji u širokom spektru NLU zadataka. Za kraj, istraživači su izjavili da uspjeh Borta u smislu bržeg prethodnog treninga i učinkovitog finog podešavanja ne bi bio moguć bez postojanja visoko optimizirane BERT-a – RoBERTa arhitekture,” zaključili su istraživači.

Kod BORT-a je otvoren i može se pronaći na GitHubu.

Pročitajte rad ovdje.

Table of Contents

Ovaj novi BERT je puno brži i manji od originala

Iza BORT-a

Korišteni skup podataka

Prilozi

Završavati

Preporučeno: