Tweets fra hele verden, planlagt etter beliggenhet som del av en ny studie. Klikk for å forstørre. Bilde via First Monday / Leetaru et. al.
Det er vanskelig å sette pris på hvor raskt og grundig Twitter har overtatt verden. For bare syv år siden, i 2006, var det en idé skissert ut på en papirblokk. Nå brukes tjenesten av anslagsvis 554 millioner brukere - et tall som utgjør nesten 8 prosent av alle mennesker på planeten - og anslagsvis 170 milliarder tweets er sendt, med det antallet som klatrer med omtrent 58 millioner hver eneste dag .
Alle disse tweets gir en uvurderlig kilde til nyheter, underholdning, samtale og forbindelse mellom mennesker. Men for forskere er de også verdifulle som noe ganske annet: rå data.
Fordi Twitter har et åpent API (som gjør det mulig å laste ned tweets som rå, analyserbare data) og mange tweets er geotagget, kan forskere bruke milliarder av disse tweetsene og analysere dem etter sted for å lære mer om geografien til mennesker over hele planeten. I fjor høst, som en del av Global Twitter Heartbeat, analyserte et team fra University of Illinois språket og plasseringen til over en milliard tweets fra hele USA for å lage sofistikerte kart over ting som positive og negative følelser uttrykt under orkanen Sandy, eller støtte til Barack Obama eller Mitt Romney under presidentvalget.
Som Joshua Keating bemerket på bloggen for utenrikspolitikken War of Ideas, har medlemmer av samme gruppe, ledet av Kalev Leetaru, nylig gått et skritt videre. Som publisert i en ny studie tidligere denne uken i online tidsskriftet First Monday, analyserte de plasseringene og språkene til 46.672.798 tweets lagt ut mellom 23. oktober og 30. november i fjor for å skape et fantastisk portrett av menneskelig aktivitet rundt planeten, vist på toppen av innlegget. De benyttet seg av Twitter decahose, en datastrøm som fanger opp en tilfeldig 10 prosent av alle tweets over hele verden til enhver tid (som til sammen var 1.535.929.521 for tidsperioden), og rett og slett fokuserte på tweets med tilhørende geografiske data.
Som forskerne bemerker, stemmer tweets geografiske tetthet i mange regioner - spesielt i den vestlige verden, der datamaskiner, mobile enheter og Twitter alle brukes på toppnivåer - nært nivåene for elektrifisering og lysbruk. Som et resultat ender kartene over tweets (for eksempel detaljvisningen av det kontinentale USA nedenfor) ut som satellittbilder av kunstig lys om natten.
Klikk for å forstørre. Bilde via First Monday / Leetaru et. al.
Som en test for å se hvor godt tweets stemte overens med bruk av kunstig lys, skapte de det sammensatte kartet nedenfor, der tweets vises som røde prikker og nattlysbelysning vises som blå. Områder hvor de korresponderer i frekvens (og effektivt avbryter hverandre) vises som hvite, og områder der den ene oppveier den andre forblir rød eller blå. Mange områder ender opp med å se ganske hvite ut, med noen viktige unntak: Iran og Kina, der Twitter er forbudt, er merkbart blått, mens mange land med relativt lave elektrifiseringssatser (men der Twitter fortsatt er populære) fremstår som røde.
Klikk for å forstørre. Bilde via First Monday / Leetaru et. al.
Prosjektet ble enda mer interessant da forskerne brukte et automatisert system for å dele ned tweets etter språk. Det vanligste språket på Twitter er engelsk, som er representert i 38, 25 prosent av alle tweets. Etter det kom japansk (11, 84 prosent), spansk (11, 37 prosent), indonesisk (8, 84 prosent), norsk (7, 74 prosent) og portugisisk (5, 58 prosent).
Teamet konstruerte et kart over alle tweets skrevet på de 26 mest populære språkene, med hver representert med en annen farge, nedenfor:
Klikk for å forstørre. Bilde via First Monday / Leetaru et. al.
Mens de fleste lands tweets er dominert av deres offisielle språk, blir mange avslørt for å inkludere tweets på en rekke andre språk. Se nøye nok, så ser du en regnbue med farger som subtilt dukker ut fra de grå prikkene (engelske tweets) som tapper USA:
Klikk for å forstørre. Bilde via First Monday / Leetaru et. al.
Blant andre analyser så forskerteamet til og med på geografien for retweeting og referanse - den gjennomsnittlige avstanden mellom en bruker og noen han eller hun gjenvenner, samt den gjennomsnittlige avstanden mellom den brukeren og noen han eller hun bare refererer til i en tweet. I gjennomsnitt var avstanden for en retweet 1111 miles og 1.118 for en referanse. Men motsatt var det et positivt forhold mellom antall ganger en gitt bruker retweetet eller henviste til en annen bruker og deres avstand: Par brukere med bare en håndfull interaksjoner, i det store og hele, var mer sannsynlig å være nærmere hverandre (500- 600 miles fra hverandre) enn de med dusinvis av retweets og referanser mellom seg.
Dette indikerer at det er mer sannsynlig at brukere som bor langt fra hverandre bruker Twitter for å samhandle regelmessig. En forklaring kan være at enhetene med flest følgere - og dermed de fleste referanser og retweets - ofte er kjendiser, organisasjoner eller selskaper, brukere som folk er kjent med, men ikke har et personlig forhold til. Et globalt kart over retweets mellom brukere er nedenfor:
Klikk for å forstørre. Bilde via First Monday / Leetaru et. al.
Avisen gikk nærmere inn på andre data knyttet til tweets: forholdet mellom mainstream nyhetsdekning og antall tweets i et land (Europa og USA får uforholdsmessig mediedekning, mens Latin-Amerika og Indonesia blir oversett), stedene Twitter har la til flest brukere nylig (Midt-Østen og Spania) og stedene der brukerne i gjennomsnitt har flest følgere (Sør-Amerika og vestkysten).
Det er noen få advarsler til alle disse dataene. For det første, selv om tweetsene som ble analysert, er flere titalls millioner, er de fremdeles bare 0, 3 prosent av alle sendte tweets, slik at de kanskje ikke representerer alle Twitter-mønstre tilstrekkelig, spesielt hvis brukere som aktiverer geotagging oppfører seg annerledes enn andre. I tillegg, i den raskt skiftende verden av Twitter, kan noen trender allerede ha endret seg betydelig siden i fjor høst. Men etter hvert som Twitter fortsetter å vokse og etter hvert som flere data blir tilgjengelige, er det grunn til at denne typen analyse bare vil bli mer populær for demografer, informatikere og andre forskere.