Ett ramverk för representation, visualisering och integration av

Ett ramverk för representation, visualisering och integration av helgenomdata
Examensarbete, Teknisk matematik, LTH
16 februari 2012
Populärvetenskaplig sammanfattning
Rasmus Henningsson
I varje enskild cell i en människas kropp
finns ritningen till hela kroppen i form av DNAmolekyler. En DNA-molekyl består av två långa
kedjor av nukleotider, sammanlänkade till en
dubbelspiral. Det finns fyra sorters nukleotider
(A, T, C och G) och ordningen på dessa i kedjan
avgör vilka proteiner som skapas i cellerna. Totalt sett består den mänskliga arvsmassan (hela uppsättningen DNA) av ungefär 3 miljarder
nukleotider (6 miljarder om man räknar båda
sidorna i dubbelspiralerna).
De senaste decennierna har det skett en otrolig utveckling av DNA-sekvenseringstekniker,
som används för att ta reda på ordningen nukleotiderna sitter i. “The Human Genome Project”
lyckades mellan 1990 och 2003 med att kartlägga
hela den mänskliga arvsmassan. Utvecklingen
har dock inte stannat där. Det är nu möjligt
att sekvensera en persons DNA på en dag, till
en kostnad av mindre än 10 000 dollar. Därmed
kan man i forskningsprojekt studera och jämföra
olika människors arvsmassa, vilket kan leda till
ökad förståelse och bättre behandlingsmetoder
för olika sjukdomar, t.ex. cancer.
Ett stort hinder vid analys av DNAsekvensdata är de enorma datamängderna. Om
man skulle visa hela den mänskliga arvsmassan med en dator skulle den fylla flera tusen
skärmar, även om man bara använder en pixel per nukleotid. Problemen blir så klart ännu
värre om många personer studeras samtidigt.
För att bättre förstå DNA-sekvenserna är
det viktigt att hitta bra metoder för att visualisera dem. På så sätt kan man utnyttja att
den mänskliga hjärnan är väldigt bra på att ta
till sig information och hitta mönster i bilder.
Eftersom det är så mycket data behöver den
dock sammanfattas innan den kan visas på en
datorskärm. Det är av stor vikt att sammanfattningen inte resulterar i att betydelsefull information går förlorad – en skillnad på en enda
nukleotid kan ibland vara skillnaden mellan att
vara frisk eller sjuk.
I examensarbetet presenteras metoder för
att åstadkomma realtidsvisualisering av DNAsekvensdata och andra liknande sorters data.
Utgångspunkten är att användaren först får se
en översiktsbild som visar hur olika värden varierar över arvsmassan. Man kan t.ex. visa hur
mycket två olika grupper av individer skiljer sig
åt på olika positioner i DNA-molekylerna. Utifrån informationen som visas kan användaren
sedan välja vad som är intressant att titta
närmare på. Valet kan ske direkt, genom att
användaren väljer vilka områden som ska studeras i mer detalj eller indirekt, genom att
användaren sätter upp regler för vilka områden
som är intressanta baserat på mätdata. Exempelvis kan användaren med hjälp av regler välja
ut de områden där två grupper av individer skiljer sig åt. När valet är gjort döljs alla områden
utom de valda vilket resulterar i att en mindre mängd data visas och att den därmed kan
åskådliggöras bättre. Proceduren upprepas sedan i och med att användaren gör nya val utifrån
den mer detaljerade informationen som visas.
Att finna en lämplig representation av DNAsekvensdata är en förutsättning för realtidsvisualisering. Det blir helt enkelt för långsamt om
programmet måste gå igenom all data så fort
något ska ändras på skärmen. I examensarbetet
föreslås att data organiseras hierarkiskt över olika detaljnivåer. Nivån längst ner motsvarar den
ursprungliga datamängden och varje övrig nivå
utgör en sammanfattning av nivån under. På så
sätt minskas mängden data som behövs för att
representera en nivå ju högre upp i hierarkin
man kommer. Visualiseringen kan sedan göras
utifrån sammanfattningarna på lämplig nivå i
hierarkin. Om mycket data ska visas används
en nivå högt upp då data ändå måste sammanfattas för att få plats på skärmen. Är det istället
en mindre mängd data som ska visualiseras kan
en mer detaljrik nivå användas. Den hierarkiska
strukturen har designats så att den lämpar sig
för att representera DNA-sekvensdata. En viktig aspekt är att det ska vara möjligt att utföra
statistiska test i realtid, d.v.s. utan att gå igenom all data.
Avslutningsvis studeras fyra olika typfall inom medicinsk forskning där man kan dra nytta
av visualiseringsmetoderna som föreslagits.
1