▷ Nova paradigma za uređivanje modela strojnog učenja temeljenih na aritmetičkim operacijama nad vektorima zadataka

Napomena: Sljedeći članak će vam pomoći: Nova paradigma za uređivanje modela strojnog učenja temeljenih na aritmetičkim operacijama nad vektorima zadataka

Sve je uobičajenije koristiti prethodnu obuku velikih razmjera za razvoj modela koji se koriste kao temelj za specijaliziranije sustave strojnog učenja. S praktičnog gledišta, često je potrebno mijenjati i ažurirati takve modele nakon što su prethodno obučeni. Ciljevi za daljnju obradu su brojni. Na primjer, ključno je poboljšati izvedbu prethodno obučenog modela na specifičnim zadacima, riješiti predrasude ili neželjeno ponašanje, uskladiti model s ljudskim preferencijama ili uključiti nove informacije.

Najnoviji rad tima istraživača sa Sveučilišta Washington, Microsoft Research i Allenov institut za umjetnu inteligenciju razvija pametnu metodu za poticanje ponašanja unaprijed obučenih modela na temelju vektora zadataka, koji se dobivaju oduzimanjem unaprijed obučenih težina modela fino prilagođenog zadatku. Preciznije, vektori zadataka definirani su kao elementarna razlika između težina prethodno obučenih i fino podešenih modela. U tu svrhu, vektori zadatka mogu se primijeniti na bilo koji parametar modela koristeći zbrajanje po elementima i izborni izraz za skaliranje. U radu su uvjeti skaliranja određeni korištenjem skupova za proveru valjanosti.

Autori pokazuju da korisnici mogu izvoditi jednostavne aritmetičke operacije na ovim vektorima zadataka kako bi promijenili modele, kao što je negiranje vektora za uklanjanje nepoželjnih ponašanja ili odučavanje zadataka ili dodavanje vektora zadataka za poboljšanje modela s više zadataka ili izvedbe na jednom zadatku. Također pokazuju da kada zadaci tvore odnos analogije, vektori zadataka mogu se kombinirati kako bi se poboljšala izvedba zadataka u kojima nema dovoljno podataka.

Nova paradigma za uređivanje modela strojnog učenja temeljenih na aritmetičkim operacijama nad vektorima zadataka 1

Nova paradigma za uređivanje modela strojnog učenja temeljenih na aritmetičkim operacijama nad vektorima zadataka 2

Autori pokazuju da je zamišljeni pristup pouzdan u zaboravljanju neželjenog ponašanja kako u vidnoj tako iu tekstualnoj domeni. Eksperimentiraju s originalnim i fino podešenim CLIP modelima za domenu vida na različitim skupovima podataka (npr. automobili, EuroSAT, MNIST, itd.). Kao što je vidljivo u tablici 1 rada, negacija vektora zadatka pouzdana je metoda za smanjenje izvedbe ciljanog zadatka (do 45.8 postotnih bodova za ViT-L) i ostaviti gotovo izvornu točnost za kontrolni zadatak. Za jezičnu domenu (tablica 2), pokazuju da negativni vektori zadataka smanjuju broj toksičnih generacija GPT-a2 Veći model šest puta, a rezultat je model sa sličnim nedoumicama na kontrolnom zadatku (WikiText-103).

Nova paradigma za uređivanje modela strojnog učenja temeljenih na aritmetičkim operacijama nad vektorima zadataka 3

Dodavanje vektora zadatka također može poboljšati unaprijed obučene modele. U slučaju klasifikacije slike, dodavanjem vektora zadataka iz dva zadatka poboljšava se točnost na oba, što rezultira jednim modelom koji je konkurentan upotrebom dva specijalizirana fino podešena modela (slika 2). U domeni jezika (mjerna vrijednost GLUE), autori pokazuju da je dodavanje vektora zadataka unaprijed obučenim modelima T5 baze bolje od finog podešavanja, čak i ako su poboljšanja u ovom slučaju skromnija.

Konačno, izvođenje analogija zadataka s vektorima zadataka omogućuje i poboljšanje izvedbe zadataka generalizacije domene i subpopulacija s malo podataka. Na primjer, da bi se postigla bolja izvedba na određenim rijetkim slikama (npr. lavovi u zatvorenom prostoru), može se izgraditi vektor zadatka dodavanjem vektora zadatka lav-vani razlika između vektora zadatka pasa u zatvorenom i otvorenom prostoru. Kao što je vidljivo na slici 4takvo modeliranje omogućuje jasna poboljšanja za domene u kojima je dostupno malo slika.

Ukratko, ovaj je rad uveo novi pristup za uređivanje modela izvođenjem aritmetičkih operacija na vektorima zadataka. Metoda je učinkovita, a korisnici mogu jednostavno eksperimentirati s različitim izmjenama modela recikliranjem i prijenosom znanja iz opsežnih kolekcija javno dostupnih fino podešenih modela.

Nova paradigma za uređivanje modela strojnog učenja temeljenih na aritmetičkim operacijama nad vektorima zadataka

Preporučeno: