▷ Ovaj Indijac je razbio Multilingual Multimodal

Napomena: Sljedeći članak će vam pomoći: Ovaj Indijac je razbio Multilingual Multimodal

U području obrade prirodnog jezika (NLP), istraživači su istraživali korištenje višejezičnih podataka za poboljšanje performansi jednojezičnih skupova podataka na engleskom. Avinash Madasu, znanstveni asistent na Sveučilištu Sjeverne Karoline, Chapel Hill, jedan je od njih.

Madasu, koji inače radi s multimodalnim modelima, ima za cilj poboljšati izvedbu dohvaćanja videa iskorištavanjem višejezičnog prijenosa znanja. “Višejezični podaci mogu poslužiti kao moćno proširenje jednojezičnih modela, ali stvaranje takvih podataka zahtijeva puno rada”, rekao je. Kako bi to prevladali, istraživači koriste najsuvremenije modele strojnog prevođenja za prevođenje engleskih tekstualnih naslova na druge jezike, stvarajući višejezične podatke visoke kvalitete koji ne zahtijevaju ljudsko označavanje.

“Ovaj problem je bio zanemaren u prijašnjim poljima, posebno u multimodalnom postavljanju”, kaže Madasu i nastavio je rješavati ovaj jaz.

engleski na bilo koji drugi jezik

Madasu predlaže model temeljen na OpenAI-jevom multimodalnom modelu CLIP za učinkovitu prilagodbu višejezičnog prijenosa znanja. Model koji su izradili Madasu i tim uzeo je video, engleske titlove i višejezične tekstualne titlove kao ulazne podatke i iz njih izdvojio zajedničke video-tekstualne prikaze. Zatim su predstavili Dual Cross-Modal (DCM) blok kodera koji je proučavao sličnosti između prikaza teksta na engleskom i video prikaza, kao i povezanost između video prikaza i višejezičnih prikaza teksta.

U zajedničkom prostoru za ugradnju, njihov je model naučio važne kontekstualne informacije iz višejezičnih prikaza koji nedostaju prikazima engleskog teksta. Ovo razumijevanje koje je model stekao učinkovito služi kao prijenos znanja. Madasuov tim tada je uspio potvrditi izvedbu svog predloženog modela na skupu podataka za dohvaćanje video zapisa pokazujući njegovu superiornost u odnosu na osnovne modele.

Madasu objašnjava da postoji više od 900 jezika u svijetu koji se mogu koristiti u modelu. Međutim, tim se i dalje suočava s izazovom nedostatka podataka, osobito za indijske jezike jer su njihovi skupovi podataka oskudni. Napominje da samo hindski ima dovoljno upotrebljivih skupova podataka budući da se označavanje podataka često povjerava tvrtkama poput Amazon Mechanical Turk koji možda nema anotatore za sve jezike.

Rješavanje nedostatka podataka

Dok velike tehnološke tvrtke poput Googlea pokušavaju prikupiti više podataka za indijske jezike u Indiji, Madasu naglašava da će pristupačnost i dalje ostati problem. Kaže da je Google restriktivna tvrtka koja ne dijeli podatke s neovisnim istraživačima jer su uložili u izradu vlastitih skupova podataka. “Bez pristupa ovim podacima, ne može biti povratnih informacija ili poboljšanja podataka, a ljudi ih neće moći koristiti”, kaže Madasu.

Dalje tvrdi da je istraživanje umjetne inteligencije neprofitabilan, javni pothvat u kojem svatko može sudjelovati i poboljšati ga. “Tako funkcionira ChatGPT, napravljen je free svima, a zatim prikupljao podatke od korisnika kako bi se neprestano poboljšavao,” kaže. Neophodno je da ti skupovi podataka budu dostupni svima jer napredak napreduje otvorenim sudjelovanjem.

Štoviše, dizajniranje modela na kojima se temelje ti jezici predstavlja još jedan izazov jer zahtijevaju razumijevanje nijansi i jezičnih komponenti jezika koji se razlikuju od engleskog. Madasu naglašava da je za dizajnere modela ključno razumjeti te lingvističke aspekte i asocijacije tokena kako bi modeli mogli učinkovito rukovati ovim jezicima.

Ali onda, jesu li LLM-ovi naša jedina opcija? Zar ne postoji neki drugi način na koji možemo uvesti višejezičnost u multimodalnom? Madasu kaže da je razlog zašto su LLM-ovi popularniji taj što vam nije potreban način obuke pod nadzorom. “Dakle, možete uzeti velike količine podataka za obuku i to uglavnom funkcionira za većinu stvari”, kaže Madasu.

Prema njegovim riječima, nenadzirani LLM ne zahtijevaju označavanje podataka zbog čega je veći naglasak na korištenju ovih modela. “Iako su dostupni drugi modeli, poput statističkih modela kao što su skriveni Markovljevi modeli i modeli Markovljevog lanca, oni ne funkcioniraju na isti način kao jezični modeli”, kaže on.

Dalje objašnjava da se ti statistički modeli oslanjaju na matematičke formule za izvođenje sljedećeg skupa tokena na temelju prethodnog skupa tokena. „Fokus je bio na jezičnim modelima zbog njihove prilagodljivosti i sposobnosti učenja bez ikakve nadzirane obuke. Ovi modeli mogu obraditi velike količine podataka bez potrebe za izričitim uputama,” rekao je.

Ovaj Indijac je razbio Multilingual Multimodal

Preporučeno: