“Beware Ides of March.” Ja, det er endelig den tiden av året igjen: når keiserne av college-basketball må se på ryggen deres, for ikke at de lave bunnfrøene i turneringen slår til.
Før 15. mars vil millioner over hele verden fylle ut March Madness-parentesene sine. I 2017 fikk ESPN rekord 18, 8 millioner parentes.
Det første trinnet til en perfekt brakett er å velge første runde riktig. Dessverre kan de fleste av oss ikke forutsi fremtiden. I fjor var bare 164 av de innsendte parentesene perfekte gjennom første runde - mindre enn 0, 001 prosent.
18, 8 millioner parenteser sendt inn.
- ESPN Fantasy Sports (@ESPNFantasy) 18. mars 2017
164 er perfekte etter runde 1.
Her for å oppnå overprestasjon. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW
Mange braketter blir buset når et lag med lavere frø forstyrrer det foretrukne høyere frøet. Siden feltet utvidet til 64 lag i 1985, forekommer minst åtte oppsigelser i gjennomsnitt hvert år. Hvis du vil vinne braketten din, bør du velge minst noen få opprør.
Vi er to matematikkdoktorer kandidater ved Ohio State University som har en lidenskap for datavitenskap og basketball. I år bestemte vi oss for at det ville være morsomt å bygge et dataprogram som bruker en matematisk tilnærming for å forutsi opprør fra første runde. Hvis vi har rett, bør en brakett som er valgt med vårt program, prestere bedre gjennom første runde enn gjennomsnittlig brakett.
Fallbare mennesker
Det er ikke lett å identifisere hvilke av førsteomgangskampene som vil resultere i opprør.
Si at du må bestemme mellom frø nr. 10 og frø nr. 7. Nr. 10-frøet har trukket av opprør i de siste tre turneringsopptredenene, en gang til og med gjort Final Four. Nr. 7-frøet er et lag som har liten eller ingen nasjonal dekning; den tilfeldige fanen har sannsynligvis aldri hørt om dem. Hvilket ville du valgt?
Hvis du valgte frø nr. 10 i 2017, ville du gått med Virginia Commonwealth University over Saint Mary's i California - og du ville ha tatt feil. Takket være en beslutningsfeil som kalles recency bias, kan mennesker bli lurt til å bruke sine nyeste observasjoner for å ta en beslutning.
Recency bias er bare en type skjevhet som kan infiltrere noens valgprosess, men det er mange andre. Kanskje er du partisk mot hjemmelaget ditt, eller kanskje identifiserer du deg med en spiller og ønsker desperat at han eller hun skal lykkes. Alt dette påvirker braketten din på en potensielt negativ måte. Selv erfarne fagfolk faller i disse fellene.
Modellering opprører
Maskinlæring kan forsvare seg mot disse fallgruvene.
I maskinlæring trener statistikere, matematikere og informatikere en maskin til å komme med spådommer ved å la den “lære” fra tidligere data. Denne tilnærmingen har blitt brukt på mange forskjellige felt, inkludert markedsføring, medisin og idrett.
Teknikker for maskinlæring kan sammenlignes med en svart boks. Først mater du algoritmen fra tidligere data, og angir egentlig knappene på den svarte boksen. Når innstillingene er kalibrert, kan algoritmen lese inn nye data, sammenligne dem med tidligere data og deretter spytte ut spådommene.
Et svart felt av maskinlæringsalgoritmer. (Matthew Osborne, CC BY-SA)I maskinlæring er det en rekke sorte bokser tilgjengelig. For vårt March Madness-prosjekt er de vi ønsket kjent som klassifiseringsalgoritmer. Disse hjelper oss med å finne ut om et spill skal klassifiseres som en opprørt, enten ved å gi sannsynligheten for en opprør eller ved eksplisitt å klassifisere et spill som et.
Vårt program bruker en rekke populære klassifiseringsalgoritmer, inkludert logistisk regresjon, tilfeldige skogsmodeller og k-nærmeste naboer. Hver metode er som et annet "merke" på samme maskin; de jobber like annerledes under panseret som Fords og Toyotas, men utfører den samme klassifiseringsjobben. Hver algoritme, eller boks, har sine egne spådommer om sannsynligheten for en opprør.
Vi brukte statistikken fra alle første runde-lagene 2001 til 2017 for å stille skiver på de svarte boksene våre. Da vi testet en av algoritmene våre med data fra første runde i 2017, hadde den omtrent 75 prosent suksessrate. Dette gir oss tillit til at analyse av tidligere data, i stedet for bare å stole på tarmen vår, kan føre til mer nøyaktige spådommer om opprør, og dermed bedre generelle parenteser.
Hvilke fordeler har disse boksene i forhold til menneskets intuisjon? For det første kan maskinene identifisere mønstre i alle data fra 2001-2017 i løpet av sekunder. Siden maskinene bare er avhengige av data, kan det være mindre sannsynlig at de faller for menneskelige psykologiske skjevheter.
Det er ikke å si at maskinlæring vil gi oss perfekte parenteser. Selv om boksen omgår menneskets skjevhet, er den ikke immun mot feil. Resultatene avhenger av tidligere data. Hvis for eksempel et frø nr. 1 skulle tape i første runde, ville modellen vår sannsynligvis ikke spå det, fordi det aldri har skjedd før.
I tillegg fungerer maskinlæringsalgoritmer best med tusenvis eller til og med millioner av eksempler. Bare 544 mars Madness-spill i første runde har blitt spilt siden 2001, så algoritmene våre vil ikke riktig kalle enhver opprørt. Echoing basket ekspert Jalen Rose, bør produksjonen vår brukes som et verktøy i forbindelse med din ekspert kunnskap - og flaks! - å velge riktige spill.
Maskinlæring galskap?
Vi er ikke de første som bruker maskinlæring til March Madness, og vi vil ikke være den siste. Faktisk kan maskinlæringsteknikker snart være nødvendige for å gjøre braketten konkurransedyktig.
Du trenger ikke en grad i matematikk for å bruke maskinlæring - selv om det hjelper oss. Snart kan maskinlæring være mer tilgjengelig enn noen gang. De interesserte kan se på modellene våre på nettet. Utforsk gjerne algoritmene våre og kom selv med en bedre tilnærming.
Denne artikkelen ble opprinnelig publisert på The Conversation.
Matthew Osborne, doktorgradskandidat i matematikk, Ohio State University
Kevin Nowland, doktorgradskandidat i matematikk, Ohio State University