Hoppa till innehåll

Har ENCODE-projektet skrotat ”skräp-DNA”?

oktober 22, 2012

För en tid sedan offentliggjordes på en gång mer 30 artiklar av ENCODE-konsortiet, som arbetar med att kartlägga det mänskliga genomets funktion. Projektet är en följd av att HUGO-projektet nu givit oss människans (nästan) kompletta gensekvens; nu gäller det att se vilka delar av genomet som används till vad. Men alla dessa resultat kom i skuggan av ett uttalande i huvudartikeln i tidskriften Nature: att man nu visat att 80% av människans genom var funktionellt, inte bara de c:a 5% man diskuterat tidigare. Därmed såg det ut som om man punkterade den allmänt accepterade uppfattningen att den största delen av genomet inte har kodande funktioner, utan utgörs av något som lite vårdslöst brukar kallas ”skräp-DNA”.

I början av 1970-talet lanserade genetikern Susumu Ohno tanken att genomet kunde förväntas innehålla en hel del trasiga genkopior, kopior som borde vara  inaktiva, men som i undantagsfall skulle kunna få nya funktioner. Detta DNA döptes till ”junk DNA”, men man underströk att detta inte betydde att det måste vara helt utan funktion 1. Senare blev det klart att genomet till ungefär hälften består av olika typer av parasitiskt DNA 2.

Detta ”skräp-DNA” har studerats mycket under åren, och man vet att en hel del av det transkriberas, alltså kopieras till RNA. Det står dock klart att många av dessa transkript inte har någon biologisk funktion utan kan ses som ett slags genetisk brus. Därför är det ett sensationellt påstående att nästan hela genomet skulle vara funktionellt. Det är heller ingen tillfällighet att siffran 80% fått så stor uppmärksamhet; redan i den inledande sammanfattning i ENCODE-projektets huvudartikel i Nature läser man:

These data enabled us to assign biochemical functions for 80% of the genome …

Frågan är nu bara vad som avses med ”biochemical functions”. Det borde rimligtvis handla om processer som leder till vissa resultat, eller till att något händer i en cell. Något som gör skillnad – om processen inte har någon som helst betydelse för cellen känns det inte naturligt att säga att den har en funktion. Längre ner på sidan formulerar man sig dock så här:

The vast majority (80.4%) of the human genome participates in at least one biochemical RNA- and/or chromatin-associated event in at least one cell type.

Här har man glidit från ”function” till ”event” – det räcker tydligen att något har hänt, helt frikopplat från eventuell funktion. Ett exempel kan kanske klargöra: man vet att stora delar av vårt genom transkriberas till RNA. Mycket av detta RNA bryts dock omedelbart ner, och ingenting mer händer 3. Sådan transkription måste rimligtvis räknas som ”event” i ENCODE-projektets betydelse, men man kan ju inte säga att den typen av händelser får cellen göra något funktionellt.

Men vad är det för typ av ”event” man diskuterar? Man har använt 24 olika typer av experiment för se om DNA på något sätt skulle vara aktivt, och man har använt sig av 147 olika typer av celler – ett jätteprojekt. Det handlar om olika sätt att påvisa transkription genom att identifiera RNA-molekyler, att identifiera DNA-motiv som binder olika proteiner som hör samman med genetisk aktivitet (t.ex. transkriptionsfaktorer), att identifiera ”öppet” DNA, alltså sekvenser som är tillgängliga för genreglerande proteiner, att finna modifieringar av DNA-bindande proteiner som tyder på aktivitet, och en del annat. Men det är naturligtvis en enorm skillnad på att ett protein binder till DNA eller att en RNA-molekyl transkriberas, och på att man kan registrera en biologisk funktion som innebär att cellen reagerar på något sätt. Man studerar de första stegen – alltså bara de allra första stegen – av komplexa händelsekedjor.

Som framgår av citatet ovan räknar man alltså en gen som aktiv om man registrerat en signal med en av metoderna i en av celltyperna. Det går inte att lägga ribban lägre. Det är väl känt att slumpen spelar in i alla biokemiska processer, inte minst i aktiviteten hos DNA. Lägger man ribban så här lågt riskerar man att plocka upp genetiskt brus som inte har någon biologisk betydelse.

***

Den vanliga siffran på den del av genomet som är kodande brukar anges till ungefär 5 %, men man väntar sig nog allmänt att den siffran kommer att stiga något allteftersom vi lär oss allt mer om genomets funktioner. Men därifrån till 80 % är det ett gigantiskt språng – hur går det här ihop? En av ENCODE-projektets organisatörer, Ewan Birney, förutsåg frågan, och på sin blogg publicerade han en simulerad intervju där man kan läsa följande:

It’s clear that 80% of the genome has a specific biochemical activity – whatever that might be.

Originally I pushed for using an “80% overall” figure and a “20% conservative floor” figure, since the 20% was extrapolated from the sampling. But putting two percentage-based numbers in the same breath/paragraph is asking a lot of your listener/reader – they need to understand why there is such a big difference between the two numbers, and that takes perhaps more explaining than most people have the patience for. We had to decide on a percentage, because that is easier to visualize, and we choose 80% because (a) it is inclusive of all the ENCODE experiments (and we did not want to leave any of the sub-projects out) and (b) 80% best coveys the difference between a genome made mostly of dead wood and one that is alive with activity. …

We use the bigger number because it brings home the impact of this work to a much wider audience.

I klartext: man uppskattar att den riktiga siffran ligger någonstans mellan 20% och 80%, men man har medvetet valt att gå ut med 80%. Varför? Jo, därför att ”läsaren” skulle ha svårt att greppa två siffror (?). Jag misstänker att de läsare som intresserar sig för projekt av det här slaget nog klarar av att hantera två siffror.

Så misstänker jag också att det handlar om marknadsföring. Problemet man har är att ENCODE-projektet är ett kartläggningsarbete som slukar enorma summor. Det är heller inte oomstritt; man kan hävda (och det hävdas också) att pengarna kunde användas bättre i ”vanlig” hypotesdriven forskning. Det gäller alltså för ENCODE-projektet att visa att investeringen betalar sig inte bara som kartläggning, utan också i form av vetenskapliga genombrott. På ett sätt kan jag förstå Birney och hans kollegor; man klarar inte av att driva sådana här jätteprojekt om man inte är övertygad om att projektet är meningsfullt, och att det kommer att leda till viktiga upptäckter.

Uttalandet om att genomet skulle vara till 80% funktionellt har upprört många, inte bara forskare som anser det oförsvarligt att gå ut med uppgifter man inte kan stå för (se här, här, här, här, här, här, här, här, och här; särskilt den sista länken ger en utförlig och bra diskussion). Man har också ondgjort sig över den okritiska medierapportering som har blivit resultatet av utspelet (se här, här, här, och här). Inte ens den kreationistiske biologen Todd Wood var särskilt imponerad. Han noterade också att ”creationists will misunderstand the results and use them for propaganda purposes”.

***

Kritiken har inte gått spårlöst förbi; Ewan Birney skriver i sitt blogginlägg Response on ENCODE reaction:

With hindsight, we could have used different terminology to convey the concepts, consequence and massive extent of genomic events we observed. (Note to self: one can be precise about definitions in paper or a scientific talk to scientists, but it’s far harder via the medium of everyday press, even to the same audience).

En annan ENCODE-profil, John Stamatoyannopoulos, har i samtal med journalisten Faye Flam också slagit till reträtt:

He did admit that the press conference mislead people by claiming that 80% of our genome was essential and useful. He puts that number at 40%.

Så är det ju inte sagt att projektledningens uttalanden har fullständig resonans hos de mer än 400 forskare som arbetar i projektet. En av de yngre forskarna, Max Libbrecht, är mycket öppenhjärtig:

I do NOT think ANYONE has demonstrated function for most of our genome. In fact, ENCODE has not demonstrated function for ANYTHING because we published no functional studies. … The 80% figure is almost certainly not even real chemical signatures. If you notice, 80% of the genome is the percent of the genome that is mappable so right now, I think the 80% figure simply means that if you sequence any complex genome-wide dataset deeply enough, you will eventually return the entire genome. It’s just a signal-to-noise issue: if you keep looking, you’ll eventually get all the noise possible. …

Heck, all of it could still be “junk” by ENCODE results alone (and NOW when I say “junk”, what I mean is that they don’t have a direct effect on gene expression). First of all, the 80% figure could easily include more noise than signal because it was the informatically low-confidence set of called regions, so it’s not even clear that what’s in those 80% of regions are even what’s in the cell. Second of all, it’s unclear what many of these assays mean in terms of physical reality. For example, ChIP-Seq signal size is uncorrelated with factor occupancy or “function” as we currently understand it.

På sin egen blogg säger han vidare:

I think very few members of ENCODE believe that the consortium proved that 80% of the genome is functional; no one claimed as much on the reddit AMA, and Ewan Birney has made it clear on his blog that he would not make this claim either. …

I think many members of the consortium (including Ewan Birney) regret the choice of terminology that led to the misinterpretations of the 80% number.  Unfortunately, such misinterpretations are always a danger in scientific communication (both among the scientific community and to the public).  Whether the consortium could have done a better job explaining the results, and whether we should expect the media to more accurately represent scientific results, is hard to say.

Budskapet att 80% av vårt genom är funktionellt, och att ”skräp-DNA” skulle vara en skrotad idé, visar sig alltså vara en tidningsanka. Emellertid ligger inte hela skulden på pressen, utan till stor del också på forskarna. Det hela är ganska pinsamt. Det är tråkigt också av det skälet att den här debatten drar uppmärksamheten från de mängder av intressanta resultat projektet har levererat, och de nya metoder man utvecklat. ENCODE-projektet har givit forskningen en bra skjuts framåt, men det har inte motbevisat existensen av ”skräp-DNA”.

Referenser:

1) De första publikationer som nämner ”junk DNA” är:

Comings, D.E. (1972): The structure and function of chromatin. Advances in Human Genetics 3: 237- 431.

Ohno, S. (1972):  So much “junk” DNA in our genome. In Evolution of Genetic Systems (ed. H.H. Smith), pp. 366-370. Gordon and Breach, New York.

2) Två nyckelpublikationer som etablerade begreppet ”själviskt DNA” är:

Orgel, L.E. and F.H.C. Crick. (1980): Selfish DNA: the ultimate parasite. Nature 284: 604-607.3: 237-431. http://www.ncbi.nlm.nih.gov/pubmed/7366731

Doolittle WF, Sapienza C. (1980): Selfish genes, the phenotype paradigm and genome evolution. Nature 284(5757):601-3. http://www.ncbi.nlm.nih.gov/pubmed/6245369

3) Guenther, M. G. et al.(2007): A Chromatin Landmark and Transcription Initiation at Most Promoters in Human Cells. Cell 130, 77–88 http://www.cell.com/abstract/S0092-8674%2807%2900681-2

En populärvetenskaplig sammanfattning finns på bloggen ars technica: Inactive genes still produce RNA

 

Uppdatering 130314: Den starka reaktionen på ENCODE-konsortiets publicering var under de första veckorna främst synlig i bloggvärlden. Efter ett halvår börjar det nu också komma kritik i den reguljära vetenskapliga pressen. Hittills har fyra artiklar publicerats. Av dessa sticker Graurs kritik ut från de andra; jag har aldrig sett en så blodig avrättning i en vetenskaplig tidskrift. Emellertid kan jag inte se annat än att kritiken faktiskt är befogad.

 Eddy, S. R. (2012): The C-value paradox, junk DNA and ENCODE. Current Biology, 22(21), R898 (här) [preprint PDF].

Niu, D. K., and Jiang, L. (2012): Can ENCODE tell us how much junk DNA we carry in our genome? Biochemical and biophysical research communications 430:1340-1343 (här).

Graur, D., Zheng, Y., Price, N., Azevedo, R. B., Zufall, R. A., and Elhaik, E. (2013): On the immortality of television sets: ”function” in the human genome according to the evolution-free gospel of ENCODE. Genome Biology and Evolution. Online February 20, 2013 (här).

Doolittle, W.F. (2013): Is junk DNA bunk? A critique of ENCODE. Proc. Natl. Acad. Sci. (USA). Online March 11, 2013 (här).

8 kommentarer leave one →
  1. björk permalink
    november 21, 2012 4:08 e m

    Kan du kanske nämna resultaten och dom nya methoderna från ENCODE-projektet? Det vore säkert kul att veta!

    • Lars Johan Erkell permalink
      mars 14, 2013 12:45 e m

      Tack för påminnelsen, Sebastian! Jag har uppdaterat inlägget nu.

  2. Sebastian permalink
    mars 14, 2013 5:23 e m

    Hej Erkell,
    Vad anser du är den bästa definitionen gällande funktion? Encode’s definiton är vag medan en definition som bara inkluderar naturligt urval är alltför konservativ. Var lägger man ribban?

    • Lars Johan Erkell permalink
      mars 15, 2013 2:08 e m

      Bra fråga. Ser man frågan evolutionsbiologiskt borde en ”funktion” göra någon sorts skillnad så att det skulle märkas om den fanns eller inte. Den skulle alltså vara selekterbar. Men detta är problematiskt eftersom det finns mycket redundans i genomet – skall vi räkna det som ”funktion” att finnas till hands som reserv om någon annan funktion skulle skadas? Kanske ja, eftersom robusthet nog har ett selektivt värde. Skall vi räkna pseudogener som funktionella eftersom de bildar en reservoar av genetiska element som skulle kunna få en funktion efter en lyckosam mutation? Kanske nej; sådana mutationer är inte vanliga.

      Ser man från det molekylärbiologiska perspektivet (som ENCODE-projektet gör) kan man inte direkt se några evolutionsbiologiska effekter, utan man får se om genprodukter interagerar med andra molekyler på ett funktionellt sätt. Ett minimikrav är, tycker jag, att genen genererar fler än enstaka RNA-molekyler som antingen specifikt interagerar med andra molekyler eller translateras till protein. Och redan då har jag lagt ribban betydligt högre än ENCODE-folket. Egentligen borde ”funktion” också innebära att någon av cellens alla olika mekanismer påverkas på något sätt, men rent praktiskt vet jag inte hur man skulle göra för att hitta sådana effekter. Det är ett nål-i-höstack-problem.

      Skulle man kunna säga att en ”funktion” skall vara åtminstone kopplad till selekterbara funktioner? Jag vet inte om det här svaret var begripligt, men det finns en lång diskussion på temat i Doolittles artikel som jag hänvisade till ovan.

Trackbacks

  1. ENCODE – en gång till | Biolog(g)
  2. Om biologisk information | Biolog(g)
  3. Biolog(g)

Lämna en kommentar