"Aprenentatge de reforç" profund és l’ensenyament de noves habilitats més ràpides que mai

$config[ads_kvadrat] not found

Ponència: Configuració de l'entorn d'aprenentatge informal del jurista de CP. Joan Galeano

Ponència: Configuració de l'entorn d'aprenentatge informal del jurista de CP. Joan Galeano
Anonim

Els robots estan aprenent a completar tasques en mons virtuals accelerats, desenvolupant habilitats en qüestió d'hores que, en cas contrari, podrien trigar mesos. L’aprenentatge simulat de reforç profund (o Deep RL) significa una habilitat que normalment trigaria 55 dies per a un A.I. aprendre en el món real només pren un dia a l'aula hiperaccelerada.

"Té el potencial de revolucionar realment el que podem fer en el domini de la robòtica", va dir Raia Hadsell, investigadora de Google DeepMind, en la reunió de Re-Work Deep Learning a Londres el dijous. "Podem aprendre habilitats de nivell humà".

Pot semblar contra-intuïtiu, ja que segurament tot el tema dels robots és que els programadors els poden ensenyar a fer les coses, oi? Al dissenyar una màquina que opera al món real, els robots necessiten moltes dades per entendre com fer una tasca en una situació desconeguda. A.I. podeu utilitzar aquestes dades per "aprendre" una habilitat basada en totes les instàncies que van aparèixer abans.

L’aprenentatge de reforç profund recull aquestes dades d’una manera similar a l’aprenentatge dels humans: un robot completarà una tasca en repetides ocasions, com ara agafar una pilota i gravar les dades per crear una imatge de la millor manera d’aconseguir una pilota en una situació nova. Quan DeepMind va utilitzar el model el 2013 per ensenyar a un robot a dominar els jocs d'Atari, simplement es va asseure al davant de la pantalla i li va dir que era l'objectiu final. La comunitat científica li va encantar.

El problema és que això dura sempre. Heu de llançar boles a un robot de manera repetida, o bé, en el cas d'Atari, deixeu el robot només a la seva habitació durant un temps. Executant una simulació MuJoCo, combinada amb una xarxa neuronal progressiva, els formadors poden executar un programa que imita el robot, trasllada els comportaments apresos al robot i mapeja els moviments virtuals al món real.

"Podem executar aquests simuladors tot el dia i tota la nit", va dir Hadsell.

Els resultats parlen per si sols. Aquest robot, que va obtenir el seu diploma de captura, ara pot seguir pilotes virtuals com si fossin reals, preparant-lo per al gran dia quan se li demana que capturi una bola real:

$config[ads_kvadrat] not found