Vijesti o Tehnologiji, Recenzije i Savjeti!

Ovaj novi AI algoritam može upravljati igrama bez da mu se kažu pravila

Napomena: Sljedeći članak će vam pomoći: Ovaj novi AI algoritam može upravljati igrama bez da mu se kažu pravila

Dvije godine nakon što je DeepMind predstavio AlphaZero, program temeljen na umjetnoj inteligenciji koji bi mogao izazvati ljude u igri šaha, istraživači su demonstrirali MuZero. Istraživači iz DeepMinda opisuju to kao značajan korak prema formuliranju algoritama opće namjene.

Dok je njegov prethodnik, AlphaZero mogao naučiti igre kao što su Go, šah i shogi od nule, MuZero može svladati ove igre (zajedno s Atarijem) bez da mu se kažu pravila. Može planirati pobjedničke strategije u nepoznatim okruženjima. Ovo je osobito značajno u pogledu igara poput Atarija, gdje su pravila i dinamika općenito komplicirani i nepredvidivi.

Prednost MuZera u odnosu na njegove prethodnike

MuZero je prvi put predstavljen 2019. kao preliminarni rad na konferenciji NeurIPS 2019. Kombinira AphaZero lookahead stablo pretraživanja s novim vrhunskim rezultatom na umjetničkom rezultatu Atari benchmarka. MuZero pokazuje skok naprijed u mogućnostima algoritama učenja s potkrepljenjem.

Prirodni korak u evoluciji umjetne inteligencije je uključivanje sposobnosti brzog učenja i točne generalizacije na nove scenarije, baš kao i ljudski um. Bilo je mnogo metoda koje su znanstvenici usvojili tijekom godina kako bi izgradili ovu sposobnost, od kojih su dvije metode pretraživanja unaprijed i planiranja temeljenog na modelu.

Strategija pretraživanja unaprijed oslanja se uglavnom na pravila igre ili točan simulator i uvelike se oslanja na dano znanje o dinamici okoline. Izvrsno radi kada priprema algoritme za klasične igre kao što su dama, poker ili šah, kao u AlphaZero. Međutim, ne prihvaćaju previše složene probleme iz stvarnog svijeta i ne mogu se nužno rastaviti na jednostavna pravila.

S druge strane, sustavi koji se temelje na modelu prvo nauče točan model dinamike okruženja, a zatim ga koriste za planiranje, pomažući mu da dobro funkcionira čak i u složenim situacijama iz stvarnog svijeta. Oni ne koriste naučeni model, već umjesto toga procjenjuju najbolju radnju koja se sljedeća može poduzeti. Sustavi temeljeni na modelima također imaju značajne nedostatke. Za vizualno bogate domene, kao u Atariju, modeliranje svakog aspekta okoline postaje vrlo komplicirano čak i za sustav temeljen na modelu.

Zasluge: DeepMind

Kako bi prevladao ograničenja prethodno spomenutog pretraživanja unaprijed i planiranja temeljenog na modelu, MuZero koristi drugačiji pristup. Umjesto modeliranja cjelokupnog okruženja, MuZero odabire samo kritične aspekte za proces donošenja odluka i modelira ih. Čimbenici se biraju na temelju tri elementa — koliko je dobra trenutna pozicija (vrijednost), najbolja radnja koju treba poduzeti (politika) i koliko je dobra bila zadnja radnja (nagrada).

Izvedba MuZera

Istraživači DeepMinda odabrali su Go, šah, shogi i Atari za testiranje mogućnosti MuZera. Dok su Go, šah i shogi korišteni za procjenu njegove izvedbe na izazovnim problemima planiranja, Atari je korišten kao mjerilo za provjeru njegovih mogućnosti u vizualno složenom okruženju. Uočeno je da je MuZero nadmašio prijašnje algoritme koji su se koristili za Atari i usporedio AlphaZero Go, šah i shogi učinak.

Daljnja studija također je pokazala da su sposobnosti MuZera poboljšane za 1000 Elo, jedinicom za mjerenje igračeve relativne vještine, budući da je vrijeme potrebno za potez algoritmu povećano s jedne desetinke sekunde na 50 sekundi. Uzorak je usporediv s razlikom između amatera i profesionalnog ljudskog profesionalnog igrača.

Uočeno je da MuZero može generalizirati radnje i situacije i ne treba tražiti sve mogućnosti u igrama poput Atarija kako bi učinkovito učio.

Cijeli rad pročitajte ovdje.

Završavati

Facebook, također je najavio AI bot ReBeL koji bi mogao igrati šah (savršenu informacijsku igru) i poker (nesavršenu informacijsku igru) s jednakom lakoćom, koristeći učenje s potkrepljenjem. Tvrtka je to nazvala pozitivnim korakom prema stvaranju općih algoritama umjetne inteligencije koji bi se mogli primijeniti na probleme iz stvarnog svijeta koji se odnose na pregovore, otkrivanje prijevara i kibernetičku sigurnost.

Uz MuZero, istraživači se nadaju proširiti njegovu primjenu na rješavanje izazova u stvarnom svijetu kao što su robotika, industrije i drugo.