Siden fødselen av moderne engelskspråklige romaner på 1700-tallet har mannlige og kvinnelige karakterer fra Paul Atreides til Elizabeth Bennet lo, fliret, følt og handlet gjennom sidene sine. En ny studie utført med en maskinlæringsalgoritme har gitt nytt perspektiv på historien deres. “The Transformation of Gender in English-Language Fiction, ” publisert denne uken i tidsskriftet Cultural Analytics, analyserte presentasjonen av kjønn i mer enn 100 000 romaner, og fant et paradoks når det gjaldt romaner på 1900-tallet: som de stive kjønnsrollene så ut til å spre seg, noe som indikerte at mer likhet mellom kjønnene, antall kvinnekarakterer - og andelen kvinnelige forfattere - reduserte.
Algoritmen ble bygd av studieforfatter Ted Underwood, professor i engelsk og informasjonsvitenskap ved University of Illinois, og hans medforfatterinformasjonsforsker David Bamman fra University of California i Berkeley, og analyserte karakterene og forfatterne til 104 000 romaner - langt mer enn deg Jeg vil lese om livet. Underwood og Bamman bygde opprinnelig algoritmen for en tidligere studie om karakterisering: De ble deltatt i den nåværende studien av medforfatter Sabrina Lee, en doktorgradsstudent ved University of Illinois. Romanene ble primært valgt ut fra HathiTrust Digital Library og representerte et utvalg av bestselgere fra årene 1703 til 2009. Listen inkluderer populære titler som Pride and Prejudice, Dune og noen av romanene til Raymond Chandler.
Etter å ha sett på dataene og seksjonert dem etter tid, kunne forskerne se trender over visse perioder: mellom cirka 1800 og 1970-tallet, for eksempel en "jevn nedgang" i andelen kvinnelige forfattere - fra omtrent 50 prosent til mindre enn 25 prosent. I samme periode så de en nedgang i antall navngitte kvinnekarakterer. Disse trendene begynner å snu i siste del av 1900-tallet. Og i løpet av studien, dramatiske og raske skift i ordene som ble brukt for å karakterisere kjønn - samt en reduksjon i antall spesifikt kjønnede ord.
Mange av disse ordene ble ikke eksplisitt kjønnet, som "hjerte" eller "hus", selv om potensielt kjønnsord som "skjørt" eller "bart" ikke ble ekskludert. For eksempel var det på 1800-tallet verbet “filt” mer assosiert med kvinner, mens verbet “fikk” oftere ble assosiert med menn. Disse trendene avtok over tid, til på 1900-tallet ble andre ord tydeligere assosiert med menn og kvinner. På 1900-tallet ble ord relatert til glede mer assosiert med kvinner, og det var en tilsvarende nedgang i bruken av disse ordene i forhold til menn. “Kvinner smiler og ler, ” skriver forfatterne, “men menn fra midten av tallet kan tilsynelatende bare glise og humre.” På 1800-tallet er det mye mer diskusjon om følelser, først først og fremst når det gjelder kvinnekarakterer. På 1900-tallet er det mye mer om kropper og klær - for eksempel legger menn fra midten av århundre stadig ting i lommene eller tar dem ut.
Det er den typen resultat som viser behovet for tilnærming til maskinlæring, sier Underwood: "Virkeligheten er at kultur ikke har klare definisjoner av hva kjønn er eller hva til og med en litterær sjanger er, " sier han. "Og maskinlæring lar oss jobbe med konsepter som er uklar."
Metoden har oftere blitt brukt for å jobbe med bankdata eller for å hjelpe selvkjørende biler med å holde seg trygge, så det kan virke som en merkelig passform for å analysere romanen. Men Underwood, og andre forskere innen digital humaniora, ser stort potensiale.
Seth Long, en engelsk professor ved University of Nebraska som også jobber innen digital humaniora, sier disse uventede resultatene demonstrerer kraften til big data for humanistisk stipend. "Statistisk modellering kommer til å kreve en veldig annen måte å forstå litteraturhistorie på, " sier han. En algoritme er en tom skifer inntil gitt informasjon, men når den har den informasjonen, kan den trekke ting ut av det som folk ikke kan. I dette tilfellet avbryter det vitenskapelige antagelser om hvordan litteraturhistorien skal spore med historien om kvinners sosiale fremgang.
"Når du ser [studien] sammen med mer tradisjonelle litterære historiske prosjekter, kan du se sammenhenger som du ellers ikke har sett, " sier Claire Jarvis, professor i engelsk ved Stanford University. Det bekrefter noen av de "hunches" hun har hatt om litteraturens vei, på en kvantitativ måte. Dette inkluderer reduksjonen i andelen kvinnelige forfattere over hele den studerte perioden, noe som overrasket Underwood.
"Jeg hadde forventet å se noen fremgang, bare når det gjelder likestilling av kvinner i skjønnlitteratur, " sier Underwood. “Kanskje ikke mye fremgang, men litt fremgang. Og vi ser virkelig ikke noe. ”
De første romanene som brukte moderne engelsk ble sett på mer som underholdning og mindre som en legitim litterær innsats. Men "etter hvert som romanen blir mer og mer respektabel, " sier Jarvis, "den blir mindre assosiert med kvinnelig forfatterskap." Med andre ord: menn begynte å skrive romaner da det begynte å se ut som en "seriøs" forfølgelse.
Selv om litterære historikere har snakket om kvinners avgang fra romanen på visse punkter før, sier Underwood, er det ingen som har gjort den typen bredt skala som skulle demonstrere kontinuerlige trender. Det er her maskinlæring kommer inn.
Sier Lee, "Litteraturforskere, vi er veldig klar over at det er stillheter, " - det vil si steder i litteraturhistorien der bøker ikke ble skrevet. En annen stillhet hun føler er viktig, er det økende fraværet av navngitte kvinneskikkelser i de studerte romanene. Hun er tilhenger av romanene til den pseudonyme italienske forfatteren Elena Ferrante, og sier at karakteriseringen av kvinnelig vennskap i Ferrantes bøker fremhever "stillheten" for kvinnelig vennskap i skjønnlitteratur andre steder, både fra fortiden og i dag. For henne understreker studien det samme, og fremhever “viktigheten av å jobbe med kvinner som ser kvinner.” Fraværet av kvinner fra romanen “har rolig formet måten vi føler om litteraturhistorie, ” sier Underwood.
Forfatterne bemerker at studien deres ikke dekker alle romaner skrevet i løpet av denne tidsperioden, og mangler representasjon fra sjangerfiksjon som romantikkromaner og detektivfiksjon, som ble populær på 1900-tallet. Forskerne tok imidlertid skritt for å korrigere for skjevheten deres ved å teste databasen mot andre databaser. Bøkene de valgte representerer litteratur som ble ansett som viktige av akademiske biblioteker, og forfatterne bemerker at det er mer arbeid å gjøre med sjangerfiksjon. "Litterært kjønn kan konstrueres forskjellig i forskjellige sjangre, eller i forskjellige deler av det litterære feltet, " skriver forfatterne.
Læringsmetoder for maskiner gir en ny måte å se på fortidens stillheter og nærvær - merkelig nok gjennom prediksjonslinsen. Generelt brukes algoritmer til å lage forutsigelser eller oppdage mønstre basert på et sett med informasjon, men Long sier at bruken av dem for historien er at de kan oppdage langsiktige trender i fortiden, så vel som nåtid eller fremtid. "Jeg tror det er en så kraftig måte å holde våre egne tolkninger i sjakk, " sier han.