I 2008 kunngjorde Google en spennende ny tjeneste kalt Google Flu Trends. Ingeniører i selskapet hadde observert at visse søk (som for eksempel ordene "feber" eller hoste) så ut til å pigge hver influensasesong. Tanken deres var å bruke hyppigheten av disse søkene for å beregne landsdekkende influensahastigheter raskere enn det som kunne være gjort med konvensjonelle data (som vanligvis tar noen uker å samle og analysere), og la folk vite når de skal ta ekstra forholdsregler for å unngå å få viruset.
Relatert innhold
- Hvordan værmodeller og Google kan hjelpe prognoser influensa sesongen
- Big Data eller for mye informasjon?
Medieutsalg (denne reporteren inkludert) hastet med å gratulere Google for en så innsiktsfull, nyskapende og forstyrrende bruk av big data. Det eneste problemet? Google Flu Trends har ikke prestert veldig bra.
Tjenesten har konsekvent overvurdert influensa, sammenlignet med konvensjonelle data samlet inn etterpå av CDC, og estimerer forekomsten av influensa til å være høyere enn den faktisk var i 100 av 108 uker mellom august 2011 og september 2013. I januar 2013, da nasjonale influensahastighetene nådde en topp, men Google Flu Trends-estimatene var dobbelt så høye som de virkelige dataene, og unøyaktigheten deres endelig begynte å få pressedekning.
Den vanligste forklaringen på uoverensstemmelsen har vært at Google ikke har tatt hensyn til opptrekningen i influensarelaterte spørsmål som oppstår som et resultat av det mediedrevne influensahysteriet som oppstår hver vinter. Men denne uken i Science foreslår en gruppe samfunnsforskere ledet av David Lazer en alternativ forklaring: at Googles egne justeringer til søkealgoritmen har skylden.
Det er riktignok vanskelig for utenforstående å analysere Google Flu Trends, fordi selskapet ikke offentliggjør de spesifikke søkeordene det bruker som rå data, eller den spesielle algoritmen det bruker for å konvertere frekvensen av disse begrepene til influensavurderinger. Men forskerne gjorde sitt beste for å utlede vilkårene ved å bruke Google Correlate, en tjeneste som lar deg se på prisene for bestemte søkeord over tid.
Da forskerne gjorde dette for en rekke influensarelaterte spørsmål i løpet av de siste årene, fant de ut at et par nøkkelsøk (dem for influensabehandlinger, og de som spør hvordan de kan skille influensa fra kulde) spores nærmere med Google Flu Tendensenes estimater enn med faktiske influensa, spesielt når Google overvurderte utbredelsen av plagene. Disse spesielle søkene, ser det ut til, kan være en stor del av unøyaktighetsproblemet.
Det er en annen god grunn til å mistenke at dette kan være tilfelle. I 2011 begynte Google å anbefale relaterte søkeord for mange spørsmål (inkludert å liste opp et søk etter influensabehandlinger etter at noen Googled mange influensarelaterte termer), og i 2012 begynte selskapet å gi potensielle diagnoser som svar på symptomer i søk (inkludert oppføring av både "influensa" og "forkjølelse" etter et søk som inkluderte uttrykket "sår hals", for eksempel, noe som kanskje fikk en bruker til å søke etter hvordan man kan skille mellom de to). Disse tilpasningene, hevder forskerne, sannsynligvis kunstig drev opp prisene på søkene de identifiserte som ansvarlige for Googles overvurderinger.
Hvis denne hypotesen var sann, ville det selvfølgelig ikke bety at Google Flu Trends uunngåelig er dømt til unøyaktighet, bare at den må oppdateres for å ta hensyn til søkemotorens konstante endringer. Men Lazer og de andre reseracherne hevder at å spore influensa fra big data er et spesielt vanskelig problem.
En stor andel av søkeordene som korrelerer med CDC-data om influensahastigheter, viser seg, skyldes ikke at folk får influensa, men av en tredje faktor som påvirker både søkemønster og influensatransmisjon: vinter. Faktisk rapporterte utviklerne av Google Flu Trends at de kom over spesielle vilkår - de som er relatert til for eksempel high school basketball, som var korrelert med influensa over tid, men som tydelig ikke hadde noe å gjøre med viruset.
Over tid fjernet Google-ingeniører manuelt mange begreper som korrelerer med influensasøk, men har ingenting å gjøre med influensa, men modellen deres var tydeligvis fortsatt for avhengig av sesongbaserte søketrender uten influensa - noe av grunnen til at Google Flu Trends ikke klarte å gjenspeile 2009-epidemien av H1N1, som skjedde i løpet av sommeren. Spesielt i de tidligere versjonene var Google Flu Trends "en del influensa detektor, en del vinter detektor", skriver forfatterne av Science- papiret.
Men alt dette kan være en leksjon for bruk av big data i prosjekter som Google Flu Trends, snarere enn en blank beskyldning, sier forskerne. Hvis den er oppdatert på riktig måte for å ta hensyn til justeringer av Googles egen algoritme, og analyseres grundig for å fjerne rent sesongmessige faktorer, kan det være nyttig å dokumentere landsdekkende influensa - spesielt når det kombineres med konvensjonelle data.
Som en test skapte forskerne en modell som kombinerte Google Flu Trends-data (som egentlig er sanntid, men potensielt unøyaktige) med to uker gamle CDC-data (som er datert, fordi det tar tid å samle inn, men fortsatt kan være noe som tyder på gjeldende influensa). Deres hybrid samsvarte med faktiske og nåværende influensadata mye nærmere enn Google Flu Trends alene, og presenterte en måte å få denne informasjonen mye raskere enn å vente i to uker på de konvensjonelle dataene.
"Vår analyse av Google Flu viser at de beste resultatene kommer fra å kombinere informasjon og teknikker fra begge kilder, " sa Ryan Kennedy, en statsvitenskapsprofessor og medforfatter fra University of Houston, i en pressemelding. "I stedet for å snakke om en 'big data-revolusjon', bør vi diskutere en 'all data-revolusjon.'"