I de fleste litteraturkurs på høyskolenivå finner du studenter som dissekerer små deler av litterære klassikere: Shakespeares ensembler, Joyces strøm av bevissthet og Hemingways staccato-setninger. Det er ingen tvil om at det er så mye som kan læres om en forfatter, hans eller hennes håndverk og en historias mening med denne typen nærlesing.
Men Ben Blatt stiller et sterkt argument for en annen tilnærming. Ved å fokusere på bestemte setninger og avsnitt, poserer han i sin nye bok, Nabokovs favorittord er Mauve, forsømmer leserne alle de andre ordene, som i en roman i gjennomsnittlig lengde utgjør titusenvis av datapunkter.
Journalisten og statistikeren opprettet en database med teksten fra en smattering av 1900-tallets klassikere og bestselgere for å kvantitativt svare på en rekke spørsmål av interesse. Analysen hans avdekket noen sære mønstre som ellers kan gå upåaktet hen:
Etter tallene har de beste åpningssetningene til romanene en tendens til å være korte. Den solide forfatteren James Patterson gjennomsnitt 160 klisjéer per 100 000 ord (det er 115 mer enn den ærverdige Jane Austen), og Vladimir Nabokov brukte ordet mauve 44 ganger oftere enn den gjennomsnittlige skribenten de siste to århundrene.
Smithsonian.com snakket med Blatt om metoden hans, noen av de viktigste funnene hans og hvorfor big data er viktig for litteraturstudiet.
Du har tatt en statistisk tilnærming til å studere alt fra Where's Waldo til Seinfeld, fastfood-ledd til pop-sanger. Kan du forklare metoden din, og hvorfor du gjør det du gjør?
Jeg er datajournalist, og ser på ting innen popkultur og kunst. Jeg liker virkelig å se på ting kvantitativt og objektivt som har mye informasjon som folk ikke har gått gjennom. Hvis du ønsket å lære om hvordan den typiske personen fra USA er, ville det være nyttig, men du ville ikke bare snakket med en person, visst alt om dem og så antatt at alt om mennesker i USA er samme. Jeg tror en ting med å skrive den slags blir borte er at du kan fokusere på en setning av en forfatter, spesielt i kreative skrivekurs, eller en passasje, og du mister det større bildet for å se disse generelle mønstrene og trendene som forfattere bruker om og om igjen, hundrevis og kanskje tusenvis av ganger i sin egen forfatterskap.
Nabokovs favorittord er mykt: Hva tallene avslører om klassikere, bestselgere og vår egen forfatterskap
KjøpeSå hva fikk deg til å henvende deg til litteratur?
Bakgrunnen min er innen matematikk og informatikk, men jeg har alltid elsket å lese og skrive. Etter hvert som jeg skrev mer og mer, ble jeg veldig interessert i hvordan forskjellige forfattere og mennesker gir råd om å skrive. Det er mye av det som var fornuftig, men virket ikke støttet av informasjon, og mye av det som var i konflikt med hverandre. Jeg trodde bare det måtte være en måte å ta disse temaene på skrift som folk allerede var godt klar over og snakket om og teste dem på gode forfattere og populære forfattere for å se om dette rådet er ekte eller om det er reseptbelagte råd som ikke gjør det. ' t betyr virkelig noe i de virkelige bøkene og de virkelige sidene.
Hva var det første spørsmålet du ønsket å stille om litterære klassikere og bestselgere?
Det første kapittelet i boka er på råd om du bør bruke –ly adverb. Dette er også det første kapittelet jeg skrev kronologisk. Det er mest på Stephen Kings råd om ikke å bruke –ly adverb i boka hans om å skrive, som for mange forfattere er boken om å skrive. Men mange andre forfattere — Toni Morrison, Chuck Palahniuk — og enhver kreativ skriveklasse anbefaler ikke å bruke et –ly adverb fordi det er et unødvendig ord og et tegn på at du ikke blir konsis. I stedet for å si: "Han løp raskt, " kan du si, "Han spurtet."
Så jeg ville vite, er dette faktisk sant? Hvis dette er så gode råd, kan du forvente at de store forfatterne faktisk bruker det mindre. Du kan forvente at amatørforfattere bruker det mer enn publiserte forfattere. Jeg ville egentlig bare vite, stilistisk, først om Stephen King fulgte hans eget råd, og så om det gjelder alle de andre store og ærverdige forfatterne.
Så, hva fant du?
Det er faktisk en trend at forfattere som Hemingway, Morrison og Steinbeck, deres beste bøker, de som holdes oppe og som har mest oppmerksomhet på dem nå, er bøkene med færrest mengder av adverb. Hvis du sammenligner amatørfiksjonsskriving og nettbasert skriving som ikke er redigert med bestselgere og Pulitzer-prisvinnere i nyere tid, er det en uoverensstemmelse der mindre adverb brukes av de publiserte forfatterne. Jeg er ikke så ensidig at jeg tror du bare kan ta ut –ly adverbene fra en ok bok og det blir en flott bok. Det er tydeligvis ikke slik det fungerer. Men det er noe med det at forfattere som skriver på en veldig direkte måte, produserer bøker som samlet sett lever lengst.
Hvordan gikk du opp for å lage en database med litterære verk?
På mange av spørsmålene brukte jeg de samme 50 forfatterne som jeg hadde valgt noe vilkårlig. I hovedsak var det basert på forfattere som var på toppen av bestselgerlisten, forfattere som var på toppen av de største forfatterne i all tidsliste og forfattere som nettopp representerte en rekke forskjellige sjangre og tider og lesere. På den måten kan du i hele boka sammenligne disse forfatterne og bli kjent med dem.
Det var veldig viktig for meg at hvis jeg sa noe som "Toni Morrison bruker dette ordet med denne hastigheten, " snakket jeg om hver eneste roman hun noen gang har skrevet, og ikke bare de tre jeg allerede har hatt. I boka mi er det 50 til 100 forfattere som det refereres til gjennom. Jeg fant bibliografiene deres og fant deretter alle romanene deres som de hadde skrevet opp til det punktet som deres komplette plate. På noen måter er det litt som å føre sportsstatistikk, der hver bok er på en måte som en sesong og da alle disse sesongene eller bøkene kommer sammen som en karriere. Du kan se hvordan forfattere endrer seg over tid og hvordan de gjør ting generelt. Når du har alle bøkene på arkivet, er det veldig greit å svare på disse spørsmålene som på noen måter er veldig skremmende.
Og hvordan behandlet du all den teksten?
Det er et programmeringsspråk som heter Python, og innenfor det er det et sett med verktøy som kalles Natural Language Toolkit, ofte forkortet NLTK. Verktøyene som er involvert i det, er fritt tilgjengelig for alle. Du kan laste ned pakken på nettet og bruke den på Python eller andre språk. Du kan ikke få mange av spørsmålene om å skrive spesielt, men du kan si, hvor mange ganger vises dette ordet i teksten? Den kan gå gjennom og identifisere hvor setninger slutter og hvor setninger begynner, og deler av talen - adjektiv kontra adverb kontra verb. Så når du har verktøyene, kan du få dataene.
Hvilken statistikk utarbeidet du manuelt? Hva var det mest kjedelige?
Det er ett avsnitt der jeg ser på åpningssetninger. Elmore Leonard, som var en meget suksessfull romanforfatter, hadde sagt: ”Åpne aldri en bok med vær.” Dette er også råd som finnes i mange skriveguider. Så jeg gikk gjennom hundrevis av forfattere for å se hvor ofte de åpner boken sin for vær. For eksempel, Danielle Steel, jeg tror 45 prosent av hennes første setninger i bøker handler om været. Mange ganger er det bare "Det var en fantastisk dag, " eller "Det var lyst og solfylt ute, " ting som det. For det var det ingen måte å gjøre det automatisk uten å ha noe feil, så jeg ville bare gå gjennom alle bokfilene og markert om det var vær involvert. Du kan si det var kjedelig, fordi det var mye data samlet, men det var litt gøy å gå gjennom og lese hundrevis av åpningssetninger samtidig. Det er andre mønstre som tydelig dukker opp fra forfattere over tid.
Som du sier, kjedelig for noen, morsomt for andre. Noen synes kanskje at denne analytiske tilnærmingen er kjedelig, men du argumenterer for at den kan være "morsom" og "ofte helt morsom." Hva var ditt morsomste funn?
Tittelen på boken, Nabokovs favorittord er mauve, handler om hvordan ordene han bruker med høyeste hastighet sammenlignet med engelsk er tallrike etter tallene. Det ender med at det gir mye mening hvis du ser på bakgrunnen hans, fordi han hadde synestesi. Han snakket i sin selvbiografi om hvordan han hjalp automatisk farger når han hørte forskjellige bokstaver og lyder.
Jeg gjentok det eksperimentet på 100 andre forfattere for å se hva deres favorittord er. Som et resultat får du tre ord som er representative for skrivingen deres etter de ordene de bruker mest. Sivile, fancy og uforsiktighet. Det er Jane Austen. Jeg tror at hvis du så disse ordene, kan Jane Austen være en av de første gjetningene dine. Og så har du en forfatter som John Updike, som er litt mer kvisete og ekte og av en annen tid. Hans favorittord er rimmet, stikket og knullet. Jeg synes det er veldig interessant å se personligheten komme gjennom disse enkle matematiske spørsmålene. Hvis du har en favorittforfatter, avslører det noe om personligheten du ikke har lagt merke til før du går gjennom det.
Ray Bradbury hadde skrevet at favorittordet hans var kanel. Etter tallene bruker han det mye. Hans forklaring på hvorfor han likte kanel var at den minnet ham om bestemors spiskammer. Så jeg gikk igjennom og fant andre krydderord og luktord som kunne assosieres med bestemors spiskammer, og Ray Bradbury bruker riktignok de fleste av disse ordene med veldig høy hastighet. På noen måte kan du få dette rare, freudianske blikket inn i noe med forfatteres barndom. Hvis ikke Ray Bradbury ikke hadde sagt det, kan du kanskje finne ut av det.
Du sammenlignet amerikanske og britiske forfattere, og bekreftet en stereotyp at amerikanere er høyt. Kan du forklare denne?
Denne var faktisk basert opprinnelig på en studie gjort av en doktorgradsstudent ved Stanford. Han hadde identifisert ord som brukes for å beskrive dialog i bøker, og beskrev dem som høyt, nøytralt eller stille. “Hvisket” og “knurret” ville være under stille. Nøytral ville være "sa han" eller "sa hun", og høyt ville være "utbrøt han" eller "ropte." Jeg gikk gjennom de 50 forfatterne som jeg så på, så vel som store eksempler på fan-fiction, og fant, ikke med en gal margin, men en meningsfull margin, at amerikanere har et høyere forhold mellom de høye ordene og de stille ordene. Det er noen få forklaringer. Det kan være sånn at amerikanere snakker gjennom hele livet, så det er slik forfattere beskriver dem som snakker ofte. Du kan også se det som amerikanske forfattere som foretrekker mer actionbaserte, thriller, høyt tempo historier sammenlignet med de mer subtile. Amerikanerne er faktisk høyere etter tallene.
Ben Blatt, forfatter av Nabokovs favorittord er Mauve (Sierra Katow)Hvorfor tror du å bruke matematikk på skriving er en god måte å studere litteratur på?
Jeg tar absolutt ikke til orde for at dette skal være den første måten du studerer litteratur på hvis du prøver å forbedre forfatterskapet ditt. Men selv en roman med moderat lengde er sannsynligvis 50 000 ord, og det er 50 000 datapunkter. Du kommer ikke til å være i stand til å suge inn alt på en gang, og det kommer til å være noen spørsmål du bare ikke kan svare på å lese gjennom på egen hånd. Det er bra å se det større bildet. Hvis du setter deg ned og studerer ett avsnitt, er du i din kreative skriveklasse og snakker med professoren din. Hvis det er en bestemt måte å se på det, vil du bare se det gjennom alt. Men med dataene frigjør den typen deg for den, og du kan svare på noen spørsmål uten disse skjevhetene og virkelig få litt ny informasjon.
Du nevner at du tenkte på Roald Dahls "The Great Grammatizator."
Det er en flott Roald Dahl-historie der egentlig en ingeniør tenker ut en måte å skrive en historie på. I dette dommedagscenariet kan noen bare gi maskinen et komplott, og det vil spytte ut en siste roman. Insinuasjonen der er at de produserer romaner som er så formulerte og grunnleggende. Hovedpersonen i den historien velger å ikke være med på driften av maskinen og kjemper mot den ved å lage sin egen forfatterskap og kunst.
Jeg tror definitivt at denne boken, hvis du skal skrive, vil svare på mange spørsmål for deg og definitivt endre måten du tenker på noen ting, men til slutt er det egentlig ingen erstatning for ideer som får folk til å tenke og scener som får folk til å redd eller få kontakt med karakterene. Denne boka ser på håndverket til å skrive og ikke nødvendigvis hvordan man lager en minneverdig historie. Denne boken prøver ikke å konstruere en perfekt roman, og jeg tror ikke vi er så nærme det som noen mennesker kan frykte.