Microsoft Research inventa un reconeixement de parla millor que humà

$config[ads_kvadrat] not found

The Internet of Things by James Whittaker of Microsoft

The Internet of Things by James Whittaker of Microsoft
Anonim

Microsoft s'ha convertit en la primera empresa del món a desenvolupar un programari de reconeixement de veu més precís que els humans. A l’article "Aconseguir la paritat humana en el reconeixement de parla conversacional" publicat dilluns, el programari va produir transcripcions que contenien un mig percentatge menys d’errors que els esforços humans, cosa que és increïble tenint en compte la bona gent per entendre el discurs. El gran avenç obre les portes a la nova A.I. assistents més precisos que mai.

És impressionant fins on arriba la tecnologia en tan poc temps. No era fa molt de temps que el reconeixement de veu per ordinador era un nínxol estrany que semblava desesperadament llunyà. Mireu aquesta demostració del programari de veu de Windows Vista des de 2006:

L’equip va utilitzar la prova de l’Institut Nacional d’Estàndards i Tecnologia (NIST) 2000, utilitzada a tota la indústria per mesurar la fiabilitat de les transcripcions del discurs. Es produeix una conversa entre dos participants per telèfon, es gira al seu torn, abans que es compari l’escriptura resultant i es revisi contra l’ortografia dels diccionaris.

A la part de la centraleta, on dos desconeguts parlen per primera vegada, la taxa d’error humà és al voltant del 5,9 per cent, mentre que a la part de la casa de trucades, on dues persones que es coneixen parlen, la taxa d’error és al voltant del 11,3 per cent. El programari de Microsoft va obtenir un percentatge d’error inferior al 0,4 per cent.

L’avanç contribuirà a aportar noves formes d’AI immersiva. A l’agost, l’estudiant Joshua Browder va treure els embolcalls del seu chatbot DoNotPay, que pot ajudar a les persones sense llar a obtenir assessorament legal gratuït. Combinat als avenços del reconeixement, és fàcil imaginar un futur on la gent demani ajuda virtual a un assistent virtual per tenir una conversa habitual amb el seu ordinador.

En aquesta etapa, els investigadors estan considerant com el reconeixement de parla alimentat per A.I. pot donar respostes més intel·ligents. Sensay, un A.I. des del laboratori darrere de Siri, utilitza capacitats de reconeixement avançades per detectar si un usuari se sent enutjat o confós, canviant les seves respostes per adaptar-se a la situació. Si elimineu la barrera del reconeixement de veu propensa als errors, s’ofereixen noves oportunitats emocionants d’assistència virtual.

$config[ads_kvadrat] not found