For noen uker siden var jeg i et kjøpesenter da jeg la merke til en kvinne som bar en flott veske med en taulignende stropp. Siden jeg er i markedet for en ny tote, vurderte jeg å spørre henne hvor hun fikk den. Men før jeg klarte å bevege meg, forsvant hun rundt et hjørne. Da jeg kom hjem, prøvde jeg å google posen. Men jeg er ingen fashionista, og jeg fant ut at jeg ikke hadde ordforrådet til å beskrive det jeg hadde sett. “Lærveske med snorestropp” stemte ikke. Heller ikke “vesken med tauhåndtak” eller “bag med snorestropp.” Til slutt ga jeg opp.
Nå har en ny teknologi som mål å hjelpe folk med å søke etter ting de ikke nødvendigvis kan beskrive med ord.
James Hays, dataforsker ved Georgia Institute of Technology, har laget et dataprogram som kan matche håndtegnet bilder til fotografier. Dette kan etter hvert føre til et program som kan kamme internettbaserte bildetjenester, for eksempel Google Bilder, og finne fotografier som nøyaktig samsvarer med brukernes tegninger.
"Målet er å være i stand til å relatere eller matche bilder og skisser i begge retninger, akkurat som en menneskelig kan, " sier Hays. ”Et menneske kan se en dårlig tegnet skisse og finne ut hvilket bilde det ser ut til å stemme overens med. Vi ønsker å ha den samme evnen beregningsmessig. "
For å lage programmet ansatte Hays nesten 700 arbeidere fra Amazon Mechanical Turk, en markedsplass for samlebidrag som matcher arbeidere med folk som trenger oppgaver som er gjort. Teamet hans viste arbeiderne bilder av vanlige gjenstander og dyr, som ekorn, tekanner og bananer, slik at de kunne se på bildet i to sekunder. Arbeideren ville deretter trekke gjenstanden fra minnet. Teamet samlet etter hvert mer enn 75 000 skisser av 12 500 gjenstander. De kalte dette "Sketchy-databasen."
Programmet analyserte deretter skissene og matchet dem med fotografiet de lignet mest. Teknologien identifiserte riktig bilde 37 prosent av tiden. Mennesker var til sammenligning riktige omtrent 54 prosent av tiden. Selv om 37 prosent kanskje ikke virker imponerende, er det faktisk et ganske hopp for datamaskiner.
"Mennesker er allerede så oppsiktsvekkende gode til syn, vi kjenner igjen bilder enkelt, " sier Hays. "Det er faktisk overraskende vanskelig beregningsmessig."
En av hovedutfordringene med å forbedre programmet er at folk flest er ganske elendige artister. Som Hays og teamet hans skrev i en artikkel om emnet, “Former og skalaer er forvrengt. Objektdeler er karikert (store ører på en elefant), antropomorfisert (smilende munn på en edderkopp) eller forenklet (pinne-lemmer). ”
Historisk har forskning på å få datamaskiner til å gjenkjenne skisser fokusert på ting som fordeling av linjer i en tegning, retningen linjene går i eller hvor grensene for tegningen er. Men siden mennesker bare tegner det som er viktig for mennesker (øyne, for eksempel, er alltid inkludert i skisser, selv om de er relativt små), er det viktig for en datamaskin å "lære" hvordan skisser pleier å være like og hvordan de pleier å være forskjellig fra fotografier. For dette bruker programmet to separate nettverk, ett som evaluerer skisser, et som evaluerer fotografier. Ved konstant analyse av et stort datasett, kan programmet kontinuerlig "lære."
Hays og teamet hans planlegger å fortsette å forbedre programmet ved å legge til data. Fremskritt innen læring av datamaskiner bør også bidra til å forbedre samsvarstallene. Per nå har programmet en ganske høy matchfrekvens når man sammenligner skisser med fotodatabaser på internett, inkludert Flickr, selv om det er vanskelig å tallfeste, sier Hays.
I tillegg til bildesøk for håndvesker jeg så sårt trenger, har programmet en rekke mindre useriøse potensielle bruksområder. Politiet kunne skanne mistenkte skisser og sammenligne dem med en database med kriminelle fotografier. Programmet kan brukes av folk som snakker og skriver på et hvilket som helst språk, eller ikke kan skrive i det hele tatt.
"Et mål med å forstå skisser er at de er et noe universelt språk, " sier Hays. “Det er ikke knyttet til et bestemt skriftspråk, og det er ikke en gang knyttet til leseferdighet. [Et program som dette kan gi] tilgang til informasjon uten skriftspråk. ”
Programmet kan også brukes kunstnerisk for å lage fotorealistiske scener ut av skisser. Har du alltid forestilt deg å bo i et slott på månen? Tegn det, og programmet kan en dag lage et fotobilde for deg ved å sy sammen deler av andre bilder.
Informasjonen som samles av Hays og teamet hans, kan også bidra til å adressere noen spørsmål om nevrovitenskap og psykologi, sier Hays.
"Disse skissefotoparene sier noe om menneskets oppfatning, om hva vi synes er fremtredende, hvilke deler av bilder som fanger oppmerksomheten vår, " sier Hays. “På noen måter koder denne databasen ganske bra. Det kan være noe å bli drillet ut av, hvis du vil si noe om mennesker selv. ”