https://frosthead.com

Big Data Just Got Bigger som IBMs Watson oppfyller livets leksikon

Etter 2000 år står livets endelige leksikon til en ny datadrevet epoke. Et tilskudd fra National Science Foundation er tildelt The Encyclopedia of Life (EOL), IBM og Georgia Institute of Technology. Bevilgningen vil gjøre det mulig å behandle og kryssindeksere store mengder data på måter som gjør det mulig å gjøre banebrytende vitenskap.

Relatert innhold

  • Foreslått nytt marinreservesystem tilbyr rosende utsikter for både hummer og hummerfisker

I år 77 e.Kr., begynte den eldste Plinius å skrive verdens første leksikon, Natural History. Det inkluderte alt fra astronomi til botanikk til zoologi til antropologi og mer. Plinius forsøkte å sette alt han personlig kunne samle om den naturlige verden i et enkelt skrevet verk. De siste 2000 årene har en lang rekke av forskere inspirert av Pliny forfulgt den samme visjonen.

Plinius inkluderte 20 000 emner i 36 bind, men løp inn i begrensningene for hva en enkelt person kan oppdage, registrere og bearbeide innen en menneskelig levetid. Han døde under utbruddet av Vesuv-fjellet før han kunne fullføre en endelig redigering av magnum opus. Selv i hans egen epoke var det ikke mulig for en person å lese alle bøkene, lære alle tingene og forklare alt for verden.

Som senere forskere, redaktører og bibliotekarer oppdaget i en verden som tilfører mer skriftlig kunnskap med hvert år som går, selv om du kunne lagre all verdens bøker og forskning i en bygning, er det en utfordring å gjøre all relevant informasjon tilgjengelig for forskere under begrensningene i deres korte menneskeliv.

EOL kan være i stand til å endre det ved å bruke avansert datakraft for å skille ut samlinger av biologiske data. Prosjektet er en gratis og åpen digital samling av fakta, artikler og multimedia om biologisk mangfold, en av de største i verden. Med hovedkontor ved Smithsonian Institution og med sine 357 partnere og innholdsleverandører inkludert Harvard University og New Library of Alexandria i Egypt, har EOL vokst fra 30 000 sider da det ble lansert i 2008 til mer enn 2 millioner, med 1, 3 millioner sider med tekst, kart, video, lyd og fotografier, og støtter 20 språk.

"Jeg kom til Smithsonian i 2010 fra programvareindustrien, " sier EOL-direktør Bob Corrigan. ”Et av funnene jeg gjorde når jeg kom hit, er at selv om IT er overalt, har det ikke trengt gjennom museets verden på samme måte som det har trengt gjennom den kommersielle verdenen. Spesielt innen biologi har de viktigste dataene blitt gravlagt i lærebøker og regneark. ”

Hvordan kan biologiske data i forskjellige former kombineres og utvinnes for ny innsikt om livet på jorden? Hva om data om, for eksempel, biologisk mangfold av sommerfugler i Afrika i løpet av et tiår, ble kombinert med data om jordbruksmetoder og nedbør? Kan noe nytt læres? Det krever noe større enn en menneskelig hjerne for å gjøre dette. Noe som IBMs Watson-superdatamaskin.

"IBM bidrar med innsats og tilgang til en versjon [av Watson] som ikke er offentlig tilgjengelig, " sier Jennifer Hammock, programleder ved EOL. ”De kommer også til å ha folk som jobber med det. IBM gjør dette som et slags bidrag. "

Watson er en superdatamaskin som ikke bare knaster tall i store volumer. Den bruker kunstig intelligens for å la brukere stille spørsmål på vanlig språk.

"Jeg vil si fra brukerens synspunkt, at det betyr at databasen er noe du kan gå opp til og stille et spørsmål som om du vil om et menneske, " sier Hammock. "Kan du fortelle meg om denne lilla sommerfuglen forekommer i Afrika?"

"Å svare på et enkelt spørsmål på alle språk forutsetter at det eksisterer mye kunnskap bak kulissene, " sier Corrigan. “Selv [ordet] lilla, forutsetter at vi vet hva lilla er. Eller en sommerfugl, [datamaskinen] må forstå forskjellen mellom en sommerfugl og en møll. På toppen av dette har datasettene forskjellige måter å tenke på disse forskjellige begrepene. Alle disse dataene har vært vanskelige å utvinne uten en Rosetta-stein. Og det er en del av magien i det EOL gjør. ”

Et vitenskapelig spørsmål som partnerskapet mellom EOL, IBM og Georgia Tech håper å løse, er planktonets paradoks.

I følge Hammock prøver forskere som jobber med datasimuleringer å modellere hva som skjer i havet ved å si at solen skinner inn og algene vokser. . . det har en grov tilnærming, men de kan ikke få [datamodellen til økosystemet] til å være stabil. De går en stund og så krasjer de. Fordi de er for enkle. De håper at hvis de kan vise litt mer mangfoldighet i sin modellerte biosfære, vil de bli mer stabile. . . .paradokset er: hvordan eksisterer havets biosfære? Hvorfor krasjer det ikke? ”

"Folk sitter på data, " sier Corrigan. “Det er utrolige reservoarer av målinger av biologisk mangfold over hele planeten. Jeg får mange telefonsamtaler fra folk som sitter på disse dataene og vil ha hjelp til å sette dem i en bredere sammenheng. Det er viktig fordi vi er i et løp for å studere denne planeten og lære hvordan utviklingen vår legger vekt på de veldig endelige ressursene. . . Smithsonian kan spille en rolle i økningen av kunnskap fra alle disse kildene og være en reell makt til å spre den. ”

En fjerdedel av tilskuddet på 1 million dollar vil bli tildelt Smithsonian for sin del av arbeidet, men EOL inkluderer mange andre spillere. Noen utviklere er i Egypt; et utdanningsteam har base fra Harvard; og den spanske språklige enheten er i Mexico by.

Alle data fra EOL vil fortsette å være enten i det offentlige domene eller lisensiert under Creative Commons. Forskningen og dataene er ment å være offentlig tilgjengelige og ikke gjemmes bak en betalingsmur.

"Det er en veldig gammel drøm, " sier Hammock. ”Et menneske kan sannsynligvis ikke lære alt. Det er vanskelig å plassere alt på ett sted der det bevisst kan sjekkes mot seg selv. Men nå har vi datamaskiner. ”

Plinius ville være veldig fornøyd eller veldig sjalu.

Big Data Just Got Bigger som IBMs Watson oppfyller livets leksikon