Ett ramverk för representation, visualisering och integration av helgenomdata Examensarbete, Teknisk matematik, LTH 16 februari 2012 Populärvetenskaplig sammanfattning Rasmus Henningsson I varje enskild cell i en människas kropp finns ritningen till hela kroppen i form av DNAmolekyler. En DNA-molekyl består av två långa kedjor av nukleotider, sammanlänkade till en dubbelspiral. Det finns fyra sorters nukleotider (A, T, C och G) och ordningen på dessa i kedjan avgör vilka proteiner som skapas i cellerna. Totalt sett består den mänskliga arvsmassan (hela uppsättningen DNA) av ungefär 3 miljarder nukleotider (6 miljarder om man räknar båda sidorna i dubbelspiralerna). De senaste decennierna har det skett en otrolig utveckling av DNA-sekvenseringstekniker, som används för att ta reda på ordningen nukleotiderna sitter i. “The Human Genome Project” lyckades mellan 1990 och 2003 med att kartlägga hela den mänskliga arvsmassan. Utvecklingen har dock inte stannat där. Det är nu möjligt att sekvensera en persons DNA på en dag, till en kostnad av mindre än 10 000 dollar. Därmed kan man i forskningsprojekt studera och jämföra olika människors arvsmassa, vilket kan leda till ökad förståelse och bättre behandlingsmetoder för olika sjukdomar, t.ex. cancer. Ett stort hinder vid analys av DNAsekvensdata är de enorma datamängderna. Om man skulle visa hela den mänskliga arvsmassan med en dator skulle den fylla flera tusen skärmar, även om man bara använder en pixel per nukleotid. Problemen blir så klart ännu värre om många personer studeras samtidigt. För att bättre förstå DNA-sekvenserna är det viktigt att hitta bra metoder för att visualisera dem. På så sätt kan man utnyttja att den mänskliga hjärnan är väldigt bra på att ta till sig information och hitta mönster i bilder. Eftersom det är så mycket data behöver den dock sammanfattas innan den kan visas på en datorskärm. Det är av stor vikt att sammanfattningen inte resulterar i att betydelsefull information går förlorad – en skillnad på en enda nukleotid kan ibland vara skillnaden mellan att vara frisk eller sjuk. I examensarbetet presenteras metoder för att åstadkomma realtidsvisualisering av DNAsekvensdata och andra liknande sorters data. Utgångspunkten är att användaren först får se en översiktsbild som visar hur olika värden varierar över arvsmassan. Man kan t.ex. visa hur mycket två olika grupper av individer skiljer sig åt på olika positioner i DNA-molekylerna. Utifrån informationen som visas kan användaren sedan välja vad som är intressant att titta närmare på. Valet kan ske direkt, genom att användaren väljer vilka områden som ska studeras i mer detalj eller indirekt, genom att användaren sätter upp regler för vilka områden som är intressanta baserat på mätdata. Exempelvis kan användaren med hjälp av regler välja ut de områden där två grupper av individer skiljer sig åt. När valet är gjort döljs alla områden utom de valda vilket resulterar i att en mindre mängd data visas och att den därmed kan åskådliggöras bättre. Proceduren upprepas sedan i och med att användaren gör nya val utifrån den mer detaljerade informationen som visas. Att finna en lämplig representation av DNAsekvensdata är en förutsättning för realtidsvisualisering. Det blir helt enkelt för långsamt om programmet måste gå igenom all data så fort något ska ändras på skärmen. I examensarbetet föreslås att data organiseras hierarkiskt över olika detaljnivåer. Nivån längst ner motsvarar den ursprungliga datamängden och varje övrig nivå utgör en sammanfattning av nivån under. På så sätt minskas mängden data som behövs för att representera en nivå ju högre upp i hierarkin man kommer. Visualiseringen kan sedan göras utifrån sammanfattningarna på lämplig nivå i hierarkin. Om mycket data ska visas används en nivå högt upp då data ändå måste sammanfattas för att få plats på skärmen. Är det istället en mindre mängd data som ska visualiseras kan en mer detaljrik nivå användas. Den hierarkiska strukturen har designats så att den lämpar sig för att representera DNA-sekvensdata. En viktig aspekt är att det ska vara möjligt att utföra statistiska test i realtid, d.v.s. utan att gå igenom all data. Avslutningsvis studeras fyra olika typfall inom medicinsk forskning där man kan dra nytta av visualiseringsmetoderna som föreslagits. 1