Vijesti o Tehnologiji, Recenzije i Savjeti!

Ovaj AI dokument predlaže UPRISE: lagani i svestrani pristup poboljšanju nulte izvedbe različitih LLM modela velikih jezika na različitim zadacima

Napomena: Sljedeći članak će vam pomoći: Ovaj AI dokument predlaže UPRISE: lagani i svestrani pristup poboljšanju nulte izvedbe različitih LLM modela velikih jezika na različitim zadacima

Veliki jezični modeli poput GPT-a3, OPT i BLOOM pokazali su impresivne sposobnosti u raznim primjenama. Prema nedavnoj studiji, postoje dva ključna načina za poboljšanje njihove izvedbe: poboljšanje sposobnosti LLM-a da slijede upute i stvaranje procedura za brzo inženjerstvo. Fino podešavanje LLM-ova mijenja njihove težine kako bi zadovoljili specifične upute i povećali izvedbu zadatka. To bi ipak moglo biti ograničeno resursima za obradu i nedostupnošću težina modela. Drugačija metoda za poboljšanje generalizacije zadatka s nultim udarom pruža se ugađanjem za više zadataka, što djelomično opravdava trošak ugađanja.

Ipak, budući da se LLM-ovi uvijek razvijaju, postaje potrebno fino ugađati nove modele, što postavlja ozbiljna pitanja o ukupnoj cijeni finog ugađanja. Inženjerski znakovi koriste se za usmjeravanje zamrznutih LLM-ova. Dizajn upita uključuje inženjerski upit prirodnog jezika u unos zadatka kako bi se LLM osposobio za učenje u kontekstu ili za poticanje LLM-a na razmišljanje. Brzo ugađanje dodaje soft prompt predstavljen kontinuiranim parametrima za njegovo poboljšanje. Iako ove tehnike mogu pružiti izvanredne rezultate za određene poslove, nejasno je mogu li se upute stvorene za jedan zadatak koristiti za druge vrste zadataka koje još nisu otkrivene budući da stroge postavke zero-shot dizajnere upita zaslijepe.

Ovaj AI dokument predlaže UPRISE: lagani i svestrani pristup poboljšanju nulte izvedbe različitih LLM modela velikih jezika na različitim zadacima 1

UPRISE koji su predložili Microsoftovi istraživači održivo je i korisno rješenje za aplikacije u stvarnom svijetu zbog svoje generalizacije više modela i zadataka. U ovoj studiji, oni nude UPRISE, lagani i prilagodljivi retriver koji, s obzirom na ulazni zadatak s nultim udarcem, automatski prilagođava upute iz unaprijed konstruiranog skupa podataka. Retriver je naučen obnavljati znakove za različite zadatke, kao što se vidi na slici 1, što mu omogućuje generalizaciju na druge vrste zadataka tijekom zaključivanja. Štoviše, pokazuju koliko se učinkovito vještine uzajamnih zadataka prevode s malog LLM-a na nekoliko LLM-a znatno većih razmjera ugađanjem retrivera pomoću GPT-Neo-2.7B i procjena njegove izvedbe na BLOOM-7.1B, OPT-66B i GPT3-175B.

Otkriveno je da se ChatGPT bori s velikim problemima s halucinacijama, što rezultira činjenično netočnim odgovorima unatoč njegovim velikim vještinama. UPRISE može riješiti ovaj problem za zadatke provjere činjenica davanjem uputa modelu da izvede ispravne zaključke iz svog prethodno postojećeg znanja. Osim toga, kao što su pokazala njihova ispitivanja s ChatGPT-om, njihova tehnika može poboljšati čak i najmoćnije LLM-ove.

Zaključno, njihovi doprinosi uključuju sljedeće:

• Razvili su UPRISE, jednostavnu i prilagodljivu metodu za poboljšanje performansi LLM-a bez pokušaja u kontekstu više zadataka i modela.

• Njihovo istraživanje na ChatGPT-u otkriva potencijal UPRISE-a u poboljšanju performansi čak i najjačih LLM-ova. UPRISE je prilagođen s GPT-Neo-2.7B, ali također može koristiti raznim LLM-ovima znatno većih veličina, kao što je BLOOM-7.1B, OPT-66B i GPT3-175B.