For et tiår siden fullførte et internasjonalt forskerteam en ambisiøs innsats for å lese de 3 milliarder bokstavene med genetisk informasjon som finnes i hver menneskelig celle. Programmet, kjent som Human Genome Project, ga planen for menneskeliv, en prestasjon som er blitt sammenlignet med å lande en mann på månen.
Dr. Eric D. Green var involvert helt fra begynnelsen, og foredlet noen av de viktigste teknologiene som ble brukt i prosjektet. På den tiden var han postdoktor og bosatt i patologi ved Washington University i St. Louis. Han hugget ut sine 5 prosent av genomet, med fokus på kartlegging av DNA fra kromosom 7. I dag er Green direktør for National Human Genome Research Institute, som fremmer forståelsen av det menneskelige genom gjennom genomforskning.
La oss gå tilbake til midten til slutten av 1980-tallet, da ideen til Human Genome Project først ble unnfanget. Hva var motivasjonen den gangen?
Det kommer an på hvem du spør. Ulike mennesker hadde forskjellige motivasjoner. Husk at 70- og begynnelsen av 80-tallet var molekylærbiologiens revolusjonstid. Det var betydelige fremskritt i metoder som gjorde at vi kunne isolere og studere DNA i laboratoriet.
I USA, for eksempel, ble energidepartementet veldig interessert i forestillingen om å studere genomet på grunn av interesse for mutasjon, og mutasjonsprosessen knyttet til noen former for energi, for eksempel kjernekraft.
Hvis du drar til steder som National Institutes of Health, eller ser på biomedisinske forskere og helserelaterte forskere, var de veldig interessert i å kunne belyse det genetiske grunnlaget for sykdom. Blant mange genetiske sykdommer som ble vurdert, var selvfølgelig kreft.
Mange andre mennesker over hele det biomedisinske forskningsspekteret - også de som jobber med modellorganismer, som fluer og ormer og gjær - erkjente at hvis vi kunne finne ut hvordan vi omfattende kan se på komplekse genomer, starter med fluer og ormer og gjær, men deretter jobbe vår vei opp til mennesker, ville det gi grunnleggende informasjon for å forstå hvordan genomet fungerte.
Det var en sammenstøting av mange forskjellige ideer som med bakgrunn i å ha trinnvise, men viktige teknologiske fremskritt, gjorde at det virket som om problemet med å sekvensere menneskets genom og bestemme rekkefølgen på 3 milliarder bokstaver var gjennomførbart.
Hvor kom materialet til genomprosjektet fra? Hvem genom var det?
Da genomprosjektet startet, var det fremdeles ganske stykke. Ulike mennesker lagde forskjellige samlinger og DNA-fragmenter kalt biblioteker, som bare er biter av DNA klonet. De ville gjøre det fra hvem som helst: Noen ganger ville det være laboratoriesjef, noen ganger ville det være postdoktor eller gradstudent. De ville bare ta tak i DNA den gang da det egentlig ikke var noen implikasjoner av det.
Men da det endelig var tid for å lage bibliotekene som skulle brukes til sekvensering av det menneskelige genomet med Human Genome Project, var personen som var den beste personen for å lage bibliotekene en vitenskapsmann som jobbet ved Roswell Park Cancer Institute i Buffalo, New York. [Teamet] fikk informert samtykke fra rundt 10 eller 20 anonyme blodgivere, og plukket deretter ut en av dem tilfeldig, og det var personen. Rundt 60 prosent av den menneskelige genomsekvensen som ble generert av Human Genome Project, var fra en blodgiver i Buffalo, New York.
Men, vet du hva, det betyr ikke noe. Hvis du går over menneskets genomsekvens generert av Human Genome Project, er det som en mosaikk. Du kan gå for hundre tusen bokstaver, og det kan være den ene personen, fra Buffalo. Det kan ende med at du går de neste hundre tusen, og det vil være noen andre. Og de neste hundre tusen, noen andre. Alt som tjente som var en referanse. Og siden alle mennesker er 99, 9 prosent identiske på sekvensnivå, trenger ikke den første sekvensen å være en virkelig person. Det kan bare være en hypotetisk referanse av en person.
Av all den informasjonen, hvorfor valgte du å fokusere på kromosom 7 [det menneskelige genomet har 23 kromosomer]?
Det var noe vilkårlig. Vi ønsket å velge et kromosom som ikke var for stort. Vi ville ikke velge en som var for liten. Vi visste at det kom til å bli mye arbeid, så vi plukket et mellomstort kromosom.
Vi ønsket ikke å velge en som hadde mange mennesker som jobbet med den allerede. På det tidspunktet var det mest kjente genet på kromosom 7 genet fra cystisk fibrose, og det ble oppdaget i 1989. Og vi hadde faktisk isolert noe av det området og holdt på med studier.
Sannheten er at vi plukket den fordi den ikke var for stor, ikke var for liten og ikke var for overfylt. Det var en vilkårlig måte å starte; Da genomprosjektet ble avsluttet, ble de fleste studiene gjort genomomfattende.
Hvordan endret arbeidet seg gjennom prosjektets levetid?
Hele historien om genomikk er en teknologiutvikling. Hvis du sporer hvor de store fremskrittene ble gjort, var hver og en av dem forbundet med bølger innen teknologi. Tidlig i genomprosjektet kom bølgen i at vi hadde bedre måter å isolere store biter av DNA.
Da vi sekvenserte mindre organismegenom - som Drosophila fruktfluer - industrialiserte vi i utgangspunktet prosessen med å gjøre sekvensering, og gjorde den mer og mer og mer automatisert.
Da genomprosjektet begynte, var ideen: "La oss sekvensere genomene til fluer og ormer og gjær, alle disse mindre organismer ved å bruke dagens metode, " som var denne metoden utviklet av Fred Sanger i 1977. Ideen var de ville ikke presse gasspedalen for å begynne å sekvensere det menneskelige genom før en revolusjonerende ny sekvenseringsmetode ble tilgjengelig. Så det var mange anstrengelser for å utvikle nye sprø måter å sekvensere DNA på.
Da det kom tid, rundt 1997 eller 1998, å faktisk tenke på å begynne å sekvensere menneskets genom, sa alle: "Kanskje vi ikke trenger å vente på en revolusjonerende metode, kanskje vi trinnvis forbedret den gammeldagse metoden godt nok til at den kan brukes, ”og det var faktisk det som ble bestemt.
Når det er sagt, siden genomprosjektet, har det som har forandret genomikkens ansikt vært revolusjonerende nye sekvenseringsteknologier som endelig kom på scenen rundt 2005.
Hvordan har disse forbedringene endret kostnadene og tidene det tar for sekvensering?
Human Genome Project tok seks til åtte år med aktiv sekvensering, og når det gjelder aktiv sekvensering brukte de omtrent en milliard dollar på å produsere den første menneskelige genomsekvensen. Den dagen genomprosjektet ble avsluttet, spurte vi sekvenseringsgruppene våre, “OK, hvis du skulle gå i gang med et sekund annet menneskelig genom, hypotetisk, hvor lang tid ville det ta og hvor mye vil det koste?” Med baksiden av konvolutten beregningen, sa de, "Wow, hvis du ga oss ytterligere 10 til 50 millioner dollar, kunne vi sannsynligvis gjort det om tre til fire måneder."
Men nå, hvis du drar dit vi er i dag, kan du sekvensere et menneskelig genom om en dag eller to. I slutten av dette året vil det handle om en dag. Og det vil bare koste rundt 3000 til 5 000 dollar.
Hva var de viktigste funnene fra det første genomet og de som fulgte?
Det er nye funn som kommer hver dag. I de første 10 årene av å ha foran oss det menneskelige genomsekvensen, tror jeg vi på en daglig basis samler mer og mer informasjon om hvordan det menneskelige genomet fungerer. Men vi bør erkjenne at selv om 10 år er vi bare i de tidlige stadiene av å tolke den sekvensen. Flere tiår fra nå av vil vi fremdeles tolke og tolke det på nytt.
Noe av det tidligste vi lærte, for eksempel: Vi har mange færre gener enn noen hadde spådd. Da genomet begynte, spådde mange at mennesker antagelig hadde 100 000 gener, og de ville ha vesentlig flere gener enn andre organismer, spesielt enklere organismer. Det viser seg at det ikke stemmer. Det viser seg at vi er et mye lavere genantall. Faktisk er vi sannsynligvis mer som 20 000 gener. Og det er bare noen få tusen mer enn fluer og ormer. Så kompleksiteten vår ligger ikke i genantallet vårt. Kompleksiteten vår er andre steder.
Den andre overraskelsen kom da vi begynte å sekvensere andre pattedyr - spesielt mus genom, rotte genom, hunde genom og så videre, og nå har vi sekvensert 50, 60, 70 slike genom. Du stiller opp de genomsekvensene i en datamaskin, og du ser for å se hvor er sekvenser som er veldig bevart, med andre ord på flere titalls millioner år med evolusjonær tid, hvor har ikke sekvensene i det hele tatt endret seg. Høyt evolusjonære konserverte sekvenser peker nesten helt sikkert på funksjonelle sekvenser. Dette er ting som livet ikke ønsker å endre, og slik at de holder dem de samme fordi de utfører en viktig grunnleggende funksjon som er nødvendig for biologien. Når vi gikk inn på genomprosjektet, trodde vi at flertallet av de mest konserverte regionene som var funksjonelt viktige, skulle være i genene - delene av genomet som direkte koder for proteiner. Det viser seg at majoriteten av de mest konserverte og uunngåelige funksjonelle sekvensene ikke er i proteinkodende regioner; de er utenfor gener.
Så hva gjør de? Vi kjenner ikke dem alle. Men vi vet at mange av dem egentlig er kretsbrytere, som dimmerbrytere for et lys, som avgjør hvor og når og hvor mye et gen blir slått på. Det er mye mer komplisert hos mennesker enn det er i lavere organismer som fluer og ormer. Så vår biologiske kompleksitet ligger ikke så mye i genantallet vårt. Det er i de komplekse bryterne, som dimmerbrytere, som regulerer hvor, når og hvor mye gener som blir slått på.
Hva har vi igjen å finne ut?
Når du tenker på hvordan genomet fungerer, tenker det på hvordan det fungerer ofte for oss alle. Men den andre store vektleggingen innen genomikk - spesielt de siste 10 årene - er å forstå hvordan genomene våre er forskjellige. Så der kan du understreke 0, 1 prosent av genomene våre som er forskjellige sammenlignet med hverandre, og hvordan fører disse forskjellene til forskjellige biologiske prosesser. Så der er forståelse av variasjon veldig, veldig viktig, og deretter korrelere den variasjonen til forskjellige konsekvenser, av hvilken sykdom som er en viktig del av den.
Det har vært bemerkelsesverdige, bare virkelig bemerkelsesverdige fremskritt. Vi kjenner nå det genomiske grunnlaget for nesten 5000 sjeldne genetiske sykdommer. Da genomprosjektet begynte, var det bare noen få dusin sykdommer som vi forsto hva mutasjonen forårsaket denne sykdommen. Det er en enorm forskjell. Vi kjenner nå mange, mange hundre og hundrevis av regioner i menneskets genom som inneholder varianter - vi vet ikke hvilke varianter ennå - som gir risiko for mer kompliserte genetiske sykdommer, som hypertensjon og diabetes og astma, hjerte- og karsykdommer og så videre .
Vi har gått fra å ha en fullstendig mangel på kunnskap om hvor vi skal se i genomet for de variantene til å nå ha veldig diskrete regioner å se i. Så dette er en stor vekt nå i genomikk, prøver å forstå hvilke varianter som er relevante for sykdom og hva de skal gjøre med dem.