https://frosthead.com

Kunstig intelligens genererer menneskers ansikter basert på deres stemmer

Et nytt nevralt nettverk utviklet av forskere fra Massachusetts Institute of Technology er i stand til å konstruere en grov tilnærming av et individs ansikt utelukkende basert på et tekstutdrag, skriver en artikkel publisert i arXiv- rapporter for pre-print server.

Teamet trente kunstig intelligensverktøyet - en maskinlæringsalgoritme som er programmert til å "tenke" omtrent som den menneskelige hjernen - ved hjelp av millioner av online klipp som fanger mer enn 100 000 forskjellige høyttalere. Nevralt nettverk, som ble kalt Speech2Face, brukte dette datasettet for å bestemme koblinger mellom vokale signaler og spesifikke ansiktsfunksjoner; som forskerne skriver i studien, alder, kjønn, formen på ens munn, leppestørrelse, beinstruktur, språk, aksent, hastighet og uttale alle faktorer inn i talemekanikken.

I følge Gizmodos Melanie Ehrenkranz trekker Spe22face på assosiasjoner mellom utseende og tale for å generere fotorealistiske gjengivelser av frontvendte individer med nøytrale uttrykk. Selv om disse bildene er for generiske til å identifisere seg som en spesifikk person, peker de fleste av dem nøyaktig på høyttalernes kjønn, rase og alder.

Interessant nok, forklarer Jackie Snow for Fast Company, den nye forskningen bygger ikke bare på tidligere forskning angående spådommer om alder og kjønn fra tale, men også søkelys på koblinger mellom stemme og "kraniofaciale trekk" som nesestruktur.

Forfatterne legger til, "Dette oppnås uten forhåndsinformasjon eller eksistensen av nøyaktige klassifisere for disse typer fine geometriske trekk."

Fortsatt har algoritmen sine mangler. Som Live Science 's Mindy Weisberger bemerker, har modellen problemer med å analysere språkvariasjoner. Når jeg for eksempel spilte et lydklipp av en asiatisk mann som snakket kinesisk, produserte Speech2Face et ansikt med riktig etnisitet, men da samme person ble spilt inn og snakket engelsk, genererte AI et bilde av en hvit mann.

I andre tilfeller ble høyhøyde menn, inkludert barn, feilaktig identifisert som kvinner, og avslørte modellens kjønnsskjevhet ved å knytte stemmer med lave toneangivelser til menn og høytstående kvinner med kvinner. Med tanke på at treningsdataene i stor grad stammer fra pedagogiske videoer lagt ut på YouTube, påpeker forskerne videre at algoritmen ikke klarer å "representere like stor verdensbefolkningen."

I følge Slate 's Jane C. Hu er lovligheten av å bruke YouTube-videoer til vitenskapelig forskning ganske tydelig. Slike klipp anses som offentlig tilgjengelig informasjon; selv om en bruker opphavsretten av videoene sine, kan forskere inkludere materialene i sine eksperimenter under en "fair use" -bestemmelse.

Men etikken i denne praksisen er mindre grei. I snakk med Hu sa Nick Sullivan, leder for kryptografi ved Cloudflare, at han var overrasket over å se et bilde av seg selv omtalt i MIT-teamets studie, ettersom han aldri hadde signert et avkall eller hørt direkte fra forskerne. Selv om Sullivan sier til Hu at det ville ha vært "hyggelig" å bli varslet om hans inkludering i databasen, erkjenner han at gitt den store størrelsen på datapoolen, ville det være vanskelig for forskerne å nå ut til alle som er avbildet.

Samtidig konkluderer Sullivan, "Siden bildet og stemmen min ble utpekt som et eksempel i Speech2Face-papiret, i stedet for bare brukt som et datapunkt i en statistisk studie, hadde det vært høflig å nå ut for å informere meg eller be om min tillatelse. ”

En potensiell applikasjon i virkelig verden for Speech2Face er å bruke modellen til å "knytte et representativt ansikt" til telefonsamtaler på grunnlag av en høyttalers stemme. Snow legger til at stemmegjenkjenningsteknologi allerede brukes på flere felt - ofte uten enkeltpersoners uttrykkelige kunnskap eller samtykke. I fjor lanserte Chase et “Voice ID” -program som lærer å gjenkjenne kredittkortkunder som ringer banken, mens kriminalomsorgsinstitusjoner over hele landet bygger databaser med fengslede individer “stemmeavtrykk”.

Kunstig intelligens genererer menneskers ansikter basert på deres stemmer