Vijesti o Tehnologiji, Recenzije i Savjeti!

Što se razvijaju algoritmi učenja potkrepljenja

Napomena: Sljedeći članak će vam pomoći: Što se razvijaju algoritmi učenja potkrepljenja

Algoritam učenja s pojačanjem (RL) pokreće mozgove hodajućih robota i AI šahovskih velemajstora. Algoritam koristi zgodne trikove (politike) koji love mete nagrađujući se; gurajući se do odredišta.

Sustavi učenja s potkrepljenjem oslanjaju se na okvir Markovljevog procesa odlučivanja (MDP). MDP-ovi u svom idealnom stanju nisu lako dostupni algoritmu za učenje u stvarnom okruženju. U praktičnim i skalabilnim scenarijima stvarnog svijeta, RL sustavi obično nailaze na sljedeće izazove:

    nepostojanje mehanizama resetiranja, specifikacija nagrade za procjenu stanja

Na primjer, u robotici je prikupljanje visokokvalitetnih podataka za zadatak vrlo izazovno. Da bi se postigla generalizacija – što je zapravo ML – u robotici, možda će biti potrebni pametniji algoritmi za pojačanje koji iskorištavaju goleme količine prethodnih podataka za razliku od računalnog vida, gdje ljudi mogu označiti podatke.

Učenje učenja prvi je popularizirao Juergen Schmidhuber u svojoj tezi iz 1987.: meta-učenje s genetskim programiranjem. Kao što je definirao prof. Schmidhuber, “metaučenje znači učenje same metode dodjele kredita putem samomodificirajućeg koda. Meta učenje može biti najambiciozniji, ali i najzahvalniji cilj strojnog učenja. Malo je ograničenja onoga što će dobar meta učenik naučiti. Tamo gdje je to prikladno, naučit će učiti po analogiji, usitnjavanjem, planiranjem, generiranjem podcilja, njihovim kombinacijama – što god želite.”

Iako se RL koristi za AutoML, automatizacija RL-a nije imala puno uspjeha. Za razliku od nadziranog učenja, objasnili su autori, odluke o dizajnu RL koje utječu na učenje i izvedbu obično se biraju putem pokušaja i pogrešaka. AutoRL premošćuje ovaj jaz primjenom okvira AutoML iz nadziranog učenja na MDP postavku u RL-u.

Sada, kako bi agenti učenja s pojačanjem bili pametniji, Googleovi istraživači predložili su novu metodu. U radu pod naslovom “Razvijanje algoritama učenja potkrepljenja”, istraživači su predstavili metodu za meta-učenje algoritama učenja potkrepljenja pretraživanjem prostora računalnih grafova koji izračunavaju funkciju gubitka za model temeljen na vrijednosti-free RL agent za optimizaciju. Naučeni algoritmi rade neovisno o domeni kojom upravljaju i mogu se generalizirati na nova okruženja koja nisu viđena tijekom obuke.

Algoritmi koji se razvijaju

(Izvor: Rad Co-Reyesa et al.,)

Prethodni radovi o učenju RL algoritama primjenjivali su meta-gradijente, evolucijske strategije i RNN-ove. Googleovi istraživači predstavili su pravilo ažuriranja kao računski grafikon koji uključuje i module neuronske mreže i simboličke operatore. Rezultirajući graf može se analitički interpretirati i po izboru se može pokrenuti iz poznatih postojećih algoritama.

Istraživači opisuju RL algoritam kao općenite programe s jezikom specifičnim za domenu. “Ciljamo na ažuriranja pravila, a ne na nagrađivanje bonusa za istraživanje”, objasnili su. Stanje agenta, parametri politike i drugi čimbenici preslikavaju se na skalarni gubitak, koji će se koristiti za optimizaciju s gradijentnim spuštanjem. Računalni graf ovdje je usmjereni aciklički graf (DAG) čvorova s ​​tipiziranim ulazima i izlazima.

    Pretraživanje se prenosi preko programa s najviše 20 čvorova, ne uključujući ulaze ili čvorove parametara. Mutacije se javljaju s vjerojatnošću 0.95. Inače se uzorkuje novi slučajni program. Pretraga se provodi na 300 CPU-a i traje otprilike 72 sata, nakon čega je procijenjeno oko 20 000 programa.

Kao što je prikazano na gornjoj ilustraciji, mutatorska komponenta proizvodi novi algoritam letimičnim pregledom algoritama s najboljom izvedbom. Izvedba algoritma se zatim procjenjuje preko skupa okruženja za obuku, a populacija se ažurira. Ovo omogućuje ugradnju postojećeg znanja pokretanjem populacije od poznatih RL algoritama umjesto čisto od nule.

Za procjenu mogućnosti učenja RL algoritama, istraživači su koristili popularne izazove CartPole i Lunar Lander. Ako algoritam uspije na CartPole-u, tada prelazi na izazovnija okruženja za obuku. “Za učenje od nule također uspoređujemo učinak broja okruženja za obuku na naučeni algoritam uspoređujući obuku samo na CartPoleu s obukom na CartPoleu i LunarLanderu”, dodali su.

Rezultati pokazuju da je ova metoda sposobna automatski otkrivati ​​algoritme na razini nedavno predloženog RL istraživanja i empirijski postići bolju izvedbu od metoda dubokog Q-učenja.

Ključni podaci za van

Rad se usredotočuje na pravila ažuriranja RL-a neovisna o zadacima u postavci RL-a temeljenoj na vrijednostima koja su i interpretabilna i generalizacijska. Ovaj rad koristi najbolje od tehnika učenja pojačanja i AutoML-a za jačanje domene AutoRL-a. Doprinosi se mogu sažeti na sljedeći način:

    Uvođenje nove metode koja poboljšava sposobnost “učenja učenja” u algoritmima. Uvođenje općeg jezika za predstavljanje algoritama koji izračunavaju funkciju gubitka za model temeljen na vrijednostifree RL agenti za optimizaciju. Dva nova naučena RL algoritma izvode dobru izvedbu generalizacije u širokom rasponu okruženja.

Izvorni rad pronađite ovdje.