Deepfakes no és cap partit per a l'aprenentatge automàtic: això és el perquè

$config[ads_kvadrat] not found

Aquest carrer m'és prohibit

Aquest carrer m'és prohibit

Taula de continguts:

Anonim

Una nova forma de desinformació està preparada per difondre's a través de les comunitats en línia a mesura que es queden les campanyes electorals a mitjà termini. Es denomina "deepfakes" després del compte en línia pseudònim que va popularitzar la tècnica, que potser va triar el seu nom perquè el procés utilitza un mètode tècnic anomenat "profund aprenentatge": aquests vídeos falsos són molt realistes.

Fins ara, la gent ha utilitzat vídeos profunds en pornografia i sàtira per tal que sembli que gent famosa està fent coses que normalment no volien. Però és gairebé cert que apareixeran els trets profunds durant la temporada de campanyes, que pretenen representar els candidats que diuen coses o que aniran a llocs on el veritable candidat no.

Com que aquestes tècniques són tan noves, la gent té problemes per explicar la diferència entre els vídeos reals i els vídeos profunds. La meva feina, amb el meu col·lega Ming-Ching Chang i el nostre doctorat l’estudiant Yuezun Li, ha trobat la manera d’explicar de manera fiable vídeos reals de vídeos profunds. No és una solució permanent, perquè la tecnologia millorarà. Però és un començament, i ofereix esperança que les computadores puguin ajudar les persones a dir la veritat de la ficció.

Què és un "Deepfake", de totes maneres?

Fer un vídeo en forma profunda és similar a la traducció entre idiomes. Serveis com Google Translate utilitzen l'aprenentatge automàtic - anàlisi informàtica de desenes de milers de textos en diversos idiomes - per detectar patrons d'ús de paraules que utilitzen per crear la traducció.

Els algorismes de Deepfake funcionen de la mateixa manera: utilitzen un tipus de sistema d'aprenentatge automàtic anomenat xarxa neuronal profunda per examinar els moviments facials d'una persona. Després sintetitzen imatges de la cara d’una altra persona fent moviments anàlegs. Fer-ho amb eficàcia crea un vídeo de la persona de destí que apareix per fer o dir les coses que va fer la persona d'origen.

Abans que puguin funcionar correctament, les xarxes neuronals profundes necessiten molta informació de fonts, com ara les fotos de les persones que són l’origen o l’objectiu de la suplantació. Com més imatges s’utilitzin per formar un algoritme de fons profund, més serà realista la suplantació digital.

Detecció de parpelleig

Encara hi ha defectes en aquest nou tipus d’algoritme. Un d’ells té a veure amb com parpelleja la cara simulada o no. Un adult humà saludable parpelleja en qualsevol lloc entre els dos i els deu segons i un sol parpelleig dura entre una desena i quatre dècimes de segon. Això és el que seria normal veure en un vídeo d’una persona que parlava. Però no és el que passa en molts vídeos profunds.

Quan es forma un algorisme de fons en imatges facials d’una persona, depèn de les fotos disponibles a Internet que es puguin utilitzar com a dades d’entrenament. Fins i tot per a persones que es fotografien sovint, hi ha poques imatges disponibles en línia que mostren els ulls tancats. No només són tan rares les fotos, ja que els ulls de la gent estan oberts la major part del temps, però els fotògrafs no solen publicar imatges on els ulls dels subjectes principals estan tancats.

Sense imatges d'entrenament de persones que parpellegen, els algorismes de fons profunds tenen menys probabilitats de crear cares que parpellegen normalment.Quan calculem la taxa global de parpelleig i comparem això amb el rang natural, hem trobat que els caràcters de vídeos de fons profunds parpellegen molt menys en comparació amb persones reals. La nostra investigació utilitza l’aprenentatge per examinar l’obertura dels ulls i el tancament dels vídeos.

Vegeu també: Estrelles asiàtiques nord-americanes de Hollywood Won’t Cast, però A.I. Aprenentatge automàtic Can

Això ens dóna una inspiració per detectar vídeos profunds. Posteriorment, desenvolupem un mètode per detectar quan parpelleja la persona en el vídeo. Per ser més específics, escaneja cada fotograma d’un vídeo en qüestió, detecta les cares d’aquest i després localitza els ulls automàticament. A continuació, utilitza una altra xarxa neuronal profunda per determinar si l’ull detectat està obert o tancat, utilitzant l’aspecte de l’ull, les característiques geomètriques i el moviment.

Sabem que el nostre treball està aprofitant un defecte en el tipus de dades disponibles per entrenar algorismes de fons profunds. Per evitar ser víctima d’un defecte similar, hem format el nostre sistema en una gran biblioteca d’imatges d’objectes oberts i tancats. Aquest mètode sembla que funciona bé i, per tant, hem aconseguit una taxa de detecció de més del 95 per cent.

Això no és l’última paraula sobre la detecció de fulls profunds, és clar. La tecnologia està millorant ràpidament i la competència entre generar i detectar vídeos falsos és anàloga a un joc d’escacs. En particular, es pot afegir un parpelleig als vídeos de fons profunds mitjançant la inclusió d'imatges facials amb ulls tancats o utilitzant seqüències de vídeo per a l'entrenament. Les persones que volen confondre el públic milloraran la realització de vídeos falsos; i nosaltres i els altres membres de la comunitat tecnològica haurem de seguir trobant maneres de detectar-los.

Aquest article va ser publicat originalment a The Conversation de Siwei Lyu. Llegiu l'article original aquí.

$config[ads_kvadrat] not found