https://frosthead.com

Bruke matematikk for å undersøke Irans valgresultater

Statistikere og statsvitere har hatt en feltdag med resultatene fra det iranske valget tidligere denne måneden. Var valget rigget? Vi vet kanskje aldri, men det er nok begravet i matte til å få oss til å tenke at det kan ha vært slik. Selv da er det imidlertid nok til å få oss til å tro at alt er legitimt. Her er noen analyser som jeg syntes var spesielt interessante:

Rengjør data

Umiddelbart etter valget ble det reist tvil om legitimiteten til dataene, fordi hver gang en ny gruppe stemmeresultater ble gitt ut (de kommer ut i stykker i Iran, lik USA), andelen av stemmene som gikk til president Mahmoud Ahmadinejad var den samme: 67 prosent. Data er vanligvis ikke rene, og noen begynte å lure på om resultatene hadde blitt produsert.

En analyse fra University of Wisconsin matteprofessor Jordan Ellenberg i Slate, derimot, dyper dypere inn i dataene for å vise at de faktisk var mer rotete enn man kunne forvente. Resultatene kom ikke by for by, men i store partier som kombinerte data fra flere områder, noe som medførte at Ahmadinejads stemmetotal virkelig var gjennomsnitt. Og loven om store tall dikterer, som Ellenberg skrev:

Gjennomsnitt av vidt varierende mengder kan og gir vanligvis resultater som ser nesten perfekt ensartede ut. Gitt nok data, pleier utleggerne å avbryte hverandre.

Ellenberg konkluderer med at dataene er "definitivt rotete nok til å være sanne."

Benfords lov

Flere analyser har sett på de første sifrene i Iran-valgresultatene for å se om de er i samsvar med Benfords lov, som er:

I lister over tall fra mange (men ikke alle) virkelige datakilder, er det ledende siffer distribuert på en spesifikk, ikke-enhetlig måte. I følge denne loven er det første sifferet 1 nesten en tredjedel av tiden, og større sifre forekommer som det ledende sifferet med lavere og lavere frekvens, til det punktet hvor 9 som et første siffer forekommer mindre enn en gang på tjue. Denne fordelingen av første sifre oppstår logisk når et sett med verdier distribueres logaritmisk.

En analyse som brukte denne taklingen, av Boudewijn Roukema fra Nicolaus Copernicus University i Polen, konkluderte med at det var nesten dobbelt så mange stemmetall som begynte med sifferet 7 for Mehdi Karroubi enn det som forventet med Benfords lov. I tillegg mistenkte Roukema at resultatene for Ahmadinejad, der det var færre 1er og flere 2'ere og 3'ere enn forventet, ville ha vært sannsynlig om noen valgte å manipulere resultatene ved å endre 1'ere i begynnelsen av avstemningen til 2s og 3s. Det ville også ført til et overvurdering av Ahmadinejads totaler med flere millioner stemmer.

Walter Mebane, statsvitere og statistiker ved University of Michigan, brukte også Benfords lov i sin analyse, der han også finner flere uregelmessigheter i valgresultatene i Iran. Selv til og med innrømmer han at selv om resultatene hans er "kompatible med utbredt svindel", er de også "kompatible med at Ahmadinejad faktisk har vunnet."

De to siste sifrene

To doktorgradsstudenter i statsvitenskap ved Columbia University tok ennå en tredje ta ved dataene. I en analyse som de oppsummerte i en Washington Post -utgave, undersøkte de de to siste sifrene i stemmetellingen fra 29 provinser for hver av de fire kandidatene (f.eks. Hvis noen fikk 14.579 stemmer, ble bare 7 og 9 vurdert i analysen).

De to siste sifrene i valgresultatet er tilfeldig støy, og fordelingen av sifre skal være ganske jevn - hvert siffer skal vises rundt 10 prosent av tiden. Mennesker er imidlertid generere av tilfeldige tall, og når vi utgjør tall, har vi en tendens til å velge noen tall oftere enn andre. I Iran-resultatene ender bare 4 prosent av tallene på siffer 5 mens siffer 7 vises 17 prosent av tiden. Resultater som avviker så mye, kan forventes i omtrent fire av hvert 100 valg.

Mennesker har også problemer med å opprette tall som har ikke-tilstøtende sifre (det vil si at det er mindre sannsynlig at du kommer opp med 72 enn med 23), men disse tallene bør også følge tilfeldige mønstre, og omtrent 70 prosent av parene skal bestå av ikke-tilstøtende sifre. I Iran-resultatene er det imidlertid bare 62 prosent som gjør det. Igjen kunne disse resultatene forventes i omtrent 4 av hvert 100 valg. Men kombinasjonen av de to resultatene kunne forventes i bare 1 av hvert 200 valg. Usannsynlig, kanskje, men ikke umulig.

Hvor forlater det oss? Vi vet kanskje aldri om de rapporterte resultatene er reelle eller ikke. Min personlige favorittbit av data fra alt dette krever imidlertid ingen beregninger for å føre til spørsmål om valg av legitimitet. Dette sitatet fra Abbas-Ali Kadkhodaei, en talsmann for Irans Guardian Council, ville få nesten hvem som helst til å tenke seg om to ganger:

Statistikk levert av Mohsen Resaei der han hevder at mer enn 100% av de kvalifiserte har avgitt sin stemmeseddel i 170 byer er ikke nøyaktig - hendelsen har skjedd i bare 50 byer.

(For mer informasjon om valgresultatanalysene i Iran, sjekk ut Nate Silver på fivethirtyeight.com)

Bruke matematikk for å undersøke Irans valgresultater