Algorisme que dominava 'Pong' ara és excel·lent a 'Flappy Bird', encara solter

$config[ads_kvadrat] not found

The Backwards Brain Bicycle - Smarter Every Day 133

The Backwards Brain Bicycle - Smarter Every Day 133
Anonim

Millorar un mètode d'aprenentatge profund per a ells Pong, Invasors de l'espai, i altres jocs d'Atari, l'estudiant de la Universitat de Stanford, Kevin Chen, ha creat un algorisme bastant bo en el clàssic scroller lateral 2014 Flappy Bird. Chen ha aprofitat un concepte conegut com "q-learning", en el qual un agent vol millorar la seva puntuació de recompensa amb cada iteració de joc, per perfeccionar un joc gairebé impossible i increïblement addictiu.

Chen va crear un sistema en el qual el seu algorisme era optimitzat per buscar tres recompenses: una petita recompensa positiva per a cada fotograma es va mantenir viva, una gran recompensa per passar per una canonada i una recompensa igualment gran (però negativa) per morir. D'aquesta manera, l’anomenada xarxa profunda Q pot motivar-se, segons l’informe de l’autor Chen: “Vam poder jugar amb èxit el joc Flappy Bird aprenent directament dels píxels i de la puntuació, aconseguint resultats súper humans."

El document original d'Atari, publicat el 2015 a Naturalesa, va venir de la companyia DeepMind de Google (ara famosa pel seu domini de l'antic joc de taula xinès Go). La realització de DeepMind va ser un gran avenç en la mesura que va tenir informació visual o píxel, com a mínim, i, amb una entrada mínima, va ser capaç de maximitzar les recompenses. Aquest sistema de recompensa s'ha comparat amb la resposta dopaminèrgica del cervell, simplement simplificada.

No és la primera vegada que un algorisme ha conquistat l’avifaeta: una classe anterior d’estudiants d’informàtica de la Universitat de Stanford va crear un programa que, quan es va formar durant la nit, la seva puntuació va millorar a partir de 0 canonades passades a 1.600.

$config[ads_kvadrat] not found