Vijesti o Tehnologiji, Recenzije i Savjeti!

Upoznajte RedPajama: Projekt umjetne inteligencije za stvaranje potpuno otvorenog izvornog koda velikih jezičnih modela počevši s izdavanjem 1.2 Skup podataka trilijuna tokena

Napomena: Sljedeći članak će vam pomoći: Upoznajte RedPajama: Projekt umjetne inteligencije za stvaranje potpuno otvorenog izvornog koda velikih jezičnih modela počevši s izdavanjem 1.2 Skup podataka trilijuna tokena

Najnapredniji modeli temelja za AI samo su djelomično otvorenog koda i dostupni su samo putem komercijalnih API-ja. To ograničava njihovu upotrebu i ograničava istraživanje i prilagodbu. Međutim, projekt pod nazivom RedPajama sada ima za cilj stvoriti vodeće modele potpuno otvorenog koda. Prvi korak ovog projekta, reprodukcija LLaMA skupa podataka za obuku, je dovršen. Modeli otvorenog koda nedavno su značajno napredovali, a umjetna inteligencija doživljava trenutak sličan pokretu Linuxa. Stable Diffusion je pokazao da se modeli otvorenog koda mogu natjecati s komercijalnim ponudama i potaknuti kreativnost kroz sudjelovanje zajednice. Sličan pokret se sada pojavio oko velikih jezičnih modela, s izdavanjem poluotvorenih modela kao što su LLaMA, Alpaca, Vicuna i Koala, kao i potpuno otvorenih modela kao što su Pythia, OpenChatKit, Open Assistant i Dolly.

RedPajama je zajednički napor nekoliko institucija, uključujući Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research, MILA Québec AI Institute i Together. Projekt ima za cilj razviti reproduktibilan, potpuno otvoren, vodeći jezični model s tri ključne komponente: podaci prije obuke, osnovni modeli te podaci i modeli za podešavanje instrukcija. Nedavno je projekt objavio prvu komponentu, podatke prije obuke, a 1.2 bilijun tokena potpuno otvoren skup podataka temeljen na dokumentu LLaMA. Polazna točka za RedPajamu je LLaMA, vodeći paket otvorenog osnovnog modela. LLaMA je obučena na velikom skupu podataka koji je pažljivo filtriran radi kvalitete. Njegovo 7 model s milijardama parametara dulje se obučava kako bi se osigurala najbolja kvaliteta na toj veličini modela. Međutim, LLaMA i njegovi derivati ​​dostupni su samo u nekomercijalne istraživačke svrhe. RedPajama ima za cilj reproducirati LLaMA-u potpuno otvorenog koda, čineći je dostupnom za komercijalne aplikacije i pružajući transparentniji kanal za istraživanje.

Skup podataka RedPajama dostupan je za preuzimanje na Hugging Face i sastoji se od a 1.2 bilijun skupa tokena i manji slučajni uzorak. Skup podataka sastoji se od sedam odsječaka podataka: CommonCrawl, C4, GitHub, arXiv, Books, Wikipedia i StackExchange. Svaki odsječak podataka podvrgnut je pažljivoj prethodnoj obradi i filtriranju podataka kako bi se osigurala kvaliteta. Filtri kvalitete podešeni su tako da približe broj tokena koje je prijavio Meta AI u dokumentu LLaMA. Odsječci podataka CommonCrawl obrađeni su pomoću cjevovoda CCNet i filtrirani pomoću linearnog klasifikatora za odabir stranica koje podsjećaju na Wikipediju. Licence i kvaliteta filtrirali su GitHub podatke, dok su se arXiv podaci sastojali od znanstvenih članaka iz kojih je uklonjena šablonska ploča. Podaci o knjigama deduplicirani su zbog sličnosti sadržaja, podskup Wikipedije uklonio je predložak, a podskup StackExchange bio je izbor popularnih web stranica s uklonjenim predloškom. Puni skup podataka iznosi otprilike 5 TB raspakiran na disku i može se preuzeti komprimiran na 3 TB.

Projekt RedPajama surađuje s projektom Meerkat na izdavanju nadzorne ploče Meerkat i ugrađivanja za interaktivnu analizu GitHub podskupa korpusa. Upute za instalaciju i korištenje mogu se pronaći na GitHubu. Sljedeći korak u projektu je obuka robusnog osnovnog modela nakon reprodukcije podataka prije obuke. Projekt podržava Oak Ridge Leadership Computing Facility kroz INCITE program, s punim paketom modela koji će uskoro postati dostupni. Tim je uzbuđen što podučava i ugađa modele, inspiriran uspjehom Alpaca sa samo 50.000 visokokvalitetnih, raznolikih uputa. Tim je primio stotine tisuća prirodnih korisničkih uputa putem OpenChatKita, koje će se koristiti za izdavanje verzija RedPajama modela prilagođenih uputama.