Økningen av DNA-testing gjennom tjenester som 23andme viser at det er et stort marked der for familiehistorie.
Nå har forskere bygd videre på disse dataene ved å publisere det de mener er den største slektsdatabasen i verden, med et slektstre som knytter sammen 13 millioner mennesker og strekker seg mer enn fem århundrer tilbake.
Som Jocelyn Kaiser rapporterer for tidsskriftet Science, vurderte Yaniv Erlich, en beregningsgenetiker ved Columbia University, prosjektet for syv år siden etter å ha mottatt en e-post fra en fjern slektning gjennom Geni.com, et av de mange nettstedene der de søkte familiebånd.
Med støtte fra Gemi.coms teknologisjef lastet ned Erlich nettstedets offentlige profiler - titusenvis av millioner av dem. Selv om den ikke ga DNA-data, inkluderte informasjonen en persons navn, kjønn, fødselsdato og sted, dødsdato og nærmeste slektninger.
Naturen skrev om Erlich sitt prosjekt i sine tidlige stadier tilbake i 2013, og i fjor rapporterte Atlanterhavets Sarah Zhang at forskerne hadde gitt ut en forhåndsutskrift av det enorme treet. Nå, skriver Kaiser, har Erlichs team publisert en studie om arbeidet deres i tidsskriftet Science. Ved hjelp av dataene endte de opp med 5, 3 millioner trær, hvorav den største forbinder rundt 13 millioner slektninger, for det meste av europeisk avstamming.
Siden oppstarten av prosjektet har Erlich blitt sjef for vitenskapssjef for MyHeritage, et slekts- og DNA-testingsfirma som eier Geni.com. Han gjorde en Reddit Ask Me Anything sist fredag på sine funn, korrigerte misoppfatninger og forklarte metodikken bak prosjektet. Han bemerket også at den mest interessante delen av opplevelsen for ham var å finne ut hvordan du kan oversette alle tilgjengelige data til noe personlig.
I et intervju med National Geographic 's Nicole Wetsman, sier Erlich at å finne ut hvordan å jobbe med disse dataene også var den mest utfordrende delen av prosjektet. “Genomiske datasett har spesifikke verktøy, datastrukturer, metoder, men vi hadde ikke noe av det for dette. Vi fant opp hjulet mens vi gikk, sier han.
Til syvende og sist brukte forskerne matematisk grafteori for å organisere og verifisere informasjonen, rapporterer Laura Geggel for Live Science . De sammenlignet også profilene med rundt 80 000 offentlig tilgjengelige dødsattester fra Vermont i løpet av 25 år for å sikre at det ikke bare var velstående profiler lastet opp til Geni.com.
Teamet bestemte seg deretter for hvilken informasjon de ønsket å se etter for å teste databasen, skriver Wetsman.
De begynte å se på mønstre og fant svingninger i levetiden, noe de hadde forventet. For eksempel så de en dråpe unge menn under borgerkrigen og første verdenskrig og II, og en økning i barns overlevelse på 1900-tallet. De var også i stand til å spore migrasjon, som ankomsten av Mayflower i 1620 i det som nå er Massachusetts, etterfulgt av en økning av fødsler i det området.
Forskere fant også at levetid har mer å gjøre med miljø og atferd enn genetikk; Faktisk er dataene som ble avslørt, bare 16 prosent ansvarlige for levetiden. Paola Sebastiani, professor i biostatistikk ved Boston University School of Public Health, advarer imidlertid om å trekke konklusjoner rundt disse dataene i et intervju med Wetsman. "Det er mye forvirring rundt definisjonene av lang levetid, " sier hun.
Genetiker Peter Visscher fra University of Queensland i Brisbane, Australia, forteller til Kaiser at data Erlichs team etterkom, har potensiale til å gi innsikt i rollen genetikk for sykdommer hvis dataene er knyttet til helseinformasjon.
Forskerteamet har allerede begynt å kombinere treet med informasjon fra DNA.Land, som samler inn DNA-data, noe som kan bety at et enda større tre kan komme snart. Forskere spår at hvis databasen kan gå 65 generasjoner tilbake, vil de kunne fullføre treet.