How DeepMind va desenvolupar un EI eternament A.I. Això pot ser més intel·ligent

$config[ads_kvadrat] not found

DeepMind Made A Superhuman AI For 57 Atari Games! ?

DeepMind Made A Superhuman AI For 57 Atari Games! ?

Taula de continguts:

Anonim

Els ordinadors han estat donant un cop de peu als nostres fràgils culets humans a l’escacs durant un parell de dècades. La primera vegada que va passar va ser el 1996, quan el Deep Blue d’IBM va aconseguir derrocar al campió del món, Gary Kasperov. Però un nou estudi de l'AI de l'alfabet. El vestit DeepMind posa de manifest quina limitació d’abast va ser la victòria primerenca.

Per una banda, Kasperov va rebotar de nou, guanyant tres partits i empatant dos cops en un playoff de sis partits, per un vell Noticies del dia informe.

Però, molt més, com explica Julian Schrittwieser, investigador de DeepMind Invers També es van programar manualment aplicacions com Deep Blue. Això vol dir que els humans havien d’ensenyar l’AI. tot el que necessitava per saber com manejar totes les contingències imaginables. En altres paraules, només podria ser tan bo com la gent que la programava. I mentre Deep Blue òbviament era capaç d'aconseguir bastant bé en els escacs; dóna-li un altre joc similar, com Go i hauria estat sense idea.

Alpha Zero és completament diferent. En un nou estudi publicat avui a la revista Ciència, els autors revelen com van ser capaços d’ensenyar a Alpha Zero a superar els éssers humans en els escacs, però com ensenyar a Alpha Zero a com ensenyar-se a si mateix per dominar múltiples jocs.

Com ensenyar A.I. Ensenyar-se a si mateix

Alpha Zero es va desenvolupar utilitzant una tècnica anomenada aprenentatge de reforç profund. Bàsicament, això implica ensenyar l'AI. Una cosa molt senzilla, com les regles bàsiques dels escacs, i després fent aquesta cosa senzilla una i altra vegada fins que aprèn coses més complicades, interessants com estratègies i tècniques.

"Tradicionalment, els éssers humans prenien els seus coneixements sobre el joc i intentaven codificar-lo en regles", diu Schrittwieser, que treballa en Alpha Zero durant gairebé quatre anys. "El nostre enfocament és inicialitzar-lo de forma aleatòria i després deixar-lo jugar contra si mateix i, a partir d'aquests jocs, pot aprendre les estratègies que funcionen".

Alfa Zero obté són les regles bàsiques i, a partir d’aquí, aprèn a guanyar jugant a si mateix. Segons les noves troballes, només es van trigar nou hores per a Alpha Zero a dominar els escacs, 12 hores al mestre Shogi i uns 13 dies al mestre Go. Com que està jugant a si mateix, és essencialment autodidacta. S’ha convertit en picada de tots els algoritmes guiats per campió del món, derrotant al campió del món del 2017 a Shogi el 91 per cent del temps.

"Es pot descobrir de manera independent interessants coneixements sobre el joc", diu Schrittwieser. "Porta a programes que juguen més com a humans".

Tot i que el seu estil és humà i creatiu, però, també és probable que sigui òptim, perquè Alpha Zero hagi de poder dominar en pràcticament qualsevol joc en què tingui accés a tota la informació disponible. De fet, Alpha Zero és tan sofisticat, és possible que hàgim de passar a una classe de jocs completament diferent per seguir empenyent els límits de com A.I. resol problemes.

Per què Alpa Zero és tan bo

A.I. Els investigadors estimen utilitzar aquests jocs com a motius per a algorismes de formes cada vegada més sofisticades per alguns motius. Són elegants, i la gent els ha estat jugant des de fa centenars d’anys, per exemple, el que significa que teniu molts desafiaments potencials per provar el vostre algorisme. Però també són complicats i intricats, el que significa que poden servir de pedra angular a l’AI. que pot resoldre problemes en el món real. Schrittwieser diu que la següent àrea d'investigació és crear un algorisme com Alpha Zero, que pot prendre decisions òptimes amb informació imperfecta.

"En tots aquests jocs, saps tot el que passa", diu. “Al món real, només podreu conèixer una part de la informació. Potser coneixeu les vostres pròpies targetes, però no coneixeu el vostre oponent, teniu informació parcial ".

Encara hi ha uns quants jocs de taula capaços de donar algorismes com Alpha Zero també a aquest tipus de desafiaments: Schrittwieser va esmentar Stratego, en el qual els jugadors amaguen els seus moviments els uns dels altres, i Starcraft, que és una altra zona d’interès per als investigadors enfocats a DeepMind.

"Volem que els problemes que abordem cada vegada siguin més complexos", diu. "Però sempre és una dimensió a la vegada".

Al mateix temps, la propera generació de problemes computaritzats de Deep Mind ja mostra el potencial de passar del món dels jocs al món real. A principis d'aquesta setmana, es va anunciar un altre algorisme anomenat AlphaFold, que és capaç d’extrapolar una seqüència de proteïnes en una predicció precisa de la seva estructura 3D.És un problema que els científics confonen durant dècades i que poden ajudar a obrir la porta a curacions per a malalties que van des de l’Alzheimer a la fibrosi quística.

$config[ads_kvadrat] not found