https://frosthead.com

Slik slipper Google søppelen ut av innboksen din

Bak all Googles informasjon knasende - fra å finne ut hvilke søkeresultater som er de viktigste, til å lese og holde oversikt over e-posten din - er det en interessant matematikk. Og nylig holdt Javier Tordable, en programvareingeniør, en presentasjon på den, og åpnet et vindu inn i den nerdete Google-verdenen bare en sprekk.

La oss starte med Gmail. Noen ganger får du spam-post, men Gmail er ganske flink til å finne ut at når en korrespondent prøver å få deg til å investere i en nigeriansk prins, vil du sannsynligvis ikke ha det stykke mail i innboksen. Hvordan vet det? Trinn en: tren maskinen. Trinn to: sett den i gang.

Det kalles maskinlæring, og Google gjør massevis av det. I trinn ett, må du gjøre det dataforskere kaller "karakteriser en instans." I matematisk-tale betyr det:

Generelt kan egenskapene til en instans betraktes som elementer i en vektor i et ndimensjonalt euklidisk rom for et stort n (100-1000 dimensjoner er normalt, 1M-10M er ikke uhørt)

Men slik kan du tenke på det hvis du sluttet matematikk etter Calc 1. Gmail kan hente noen viktige informasjonstykker fra hvilken som helst e-post. Hvor lang er den? Hvor mange store bokstaver er det? Er dette fra noen du har fått en e-post fra før? Du vil ikke ha den informasjonen som kreves for å ta beslutningen om å være for vanskelig å få tak i eller håndtere, fordi det vil bremse og redusere nøyaktigheten til maskinen din. Så Google tegner en linje, basert på hva den vet om spam. E-postene som kommer gjennom faller på den ene siden av linjen, og de spammyene på den andre.

Mer matematisk tale:

En enkel klassifiseringsmodell er et hyperplan i området med egenskaper. Dataforekomster på den ene siden av hyperplanet er klassifisert som gyldige e-poster og forekomster på den andre siden er klassifisert som spam.

Hva med stemmesøk - også kalt automatisk talegjenkjenning, eller ASR? Som maskinlæring, skjer ASR i to deler: å behandle lyden som kommer inn og finne ut hva du sier. Den første delen involverer Fourier-transformasjoner, som isolerer de viktige bitene som datamaskinen kan oversette. Den andre delen er å modellere tale ved å bruke det som kalles en "skjult Markov-modell." Tordable forklarer:

I denne modellen er tilstandene bokstavene i meldingen, og hendelsesforløpet er lydsignalet. Viterbi-algoritmen kan brukes til å oppnå sekvensen av tilstander med maksimal sannsynlighet.

Google vil gjerne gjøre stemmegjenkjenning bedre og enklere. I denne casestudien skriver en gruppe Google-suser:

Et mål hos Google er å gjøre snakket tilgang allestedsnær tilgjengelig. Vi vil gjerne la brukeren velge - de skal kunne ta det for gitt at muntlig samhandling alltid er et alternativ. Å oppnå allestedsnærhet krever to ting: tilgjengelighet (dvs. innebygd i alle mulige interaksjoner der taleinngang eller -utgang kan være fornuftig), og ytelse (dvs. fungerer så bra at modaliteten ikke gir noen friksjon til samspillet).

Et annet område der Google bruker matematikk er i kartene deres — midt i blinken etter at Apple debuterte kartleggingssystemet deres til betydelig kritikk. I hjertet av Google Maps er grunnleggende grafteori - regnestykket med å komme fra et sted til et annet mens du reiser på korteste avstand. Men det er selvfølgelig mer sammensatt enn det. Tordable skriver: "Et unikt problem er at grafene som brukes i Google Maps inneholder millioner av noder, men algoritmene må løpe i millisekunder."

Google vil ikke fortelle oss hvordan de gjør det. Ellers ville ikke Apple ha kjørt inn i problemet sitt, men det grunnleggende innebærer å shucking Dijsktras algoritme (sannsynligvis den mest brukte grafsøkalgoritmen). For noen år tilbake beskrev dataforskere ved Universitetet i Karlsruhe en ny måte å rangere banen for å få mye raskere resultater. De skrev:

Vår algoritme forbehandler det åttesifrede antall noder som er nødvendig for kart over USA eller Vest-Europa på noen få timer ved bruk av lineær plass. Korteste (dvs. raskeste) spørringsspørsmål, ta deretter åtte millisekunder for å produsere eksakte korteste stier. Dette er omtrent 2000 ganger raskere enn å bruke Dijkstra's algoritme.

Tordable går gjennom en rekke andre matematiske verktøy som brukes av Google, inkludert de som er involvert i Google Bøker, bildesøk, Analytics, YouTube, Google Translate, Google Earth og Picasa. Du kan se hele settet med lysbilder her.

Mer fra Smithsonian.com:

Smithsonian blir Google-kartlagt
Spor mattrender med Google Bøker

Slik slipper Google søppelen ut av innboksen din