Emir Basic Komparativa studier av DNA-sekvenser

Examensarbete i matematik, naturvetenskapliga fakulteten, Lunds universitet
Emir Basic
Komparativa studier av DNA-sekvenser
Sekvensjämförelser är ett grundläggande problem inom beräkningsbiologi vars syfte är
att upptäcka likheter mellan biologiska sekvenser. Vi ger en teoretisk genomgång av
sekvensalignment och dess generalisering till s.k. multipla sekvensalignments. Detta
examensarbete fokuserar dock på alignmetsfria metoder för sekvensjämförelser
allteftersom alignmentsalgoritmer har en hög beräkningskomplexitet.
Vi utvecklade diverse numeriska karakteriseringar av en DNA-sekvens utifrån dess 2-D
grafiska representation, introducerad av Yau et al. (2003). Dessa metoder underlättar
komparativa studier av DNA, vilket är illustrerat med en undersökning av olikheter
mellan exon-1 av β-globin gen för elva organismer.
Dessutom utreder vi några existerande metoder baserade på förekomster av korta ord
(kmerer) i olika DNA sekvenser. Vi använde dessa metoder för att rekonstruera
evolutionsträd för det mitokondriska genomet av elva ryggradsdjur för vilka det sanna
evolutionsträdet är känt. Vår analys visar att euklidisk distans av odds ratios av dimerer
(k=2) resulterar i bästa evolutionsträdet.
Vi har implementerat och utvärderat alla metoder i Matlab.
Handledare: Sergei Silvestrov
Examensarbete i matematik, 20 poäng, HT 2005
Naturvetenskapliga fakulteten, Matematikcentrum Matematik NF
Lunds universitet
Examensarbete i matematik, naturvetenskapliga fakulteten, Lunds universitet
Emir Basic
Comparative DNA analysis
Sequence comparison is a fundamental task in computational molecular biology that aims
to discover similarity relationships between molecular sequences. We start out with a
review of a mathematical model for sequence alignment, and its generalization to
multiple alignments. Nevertheless, the focus of this thesis is on the alignment-free
sequence comparison methods due to the extensive computational time required by
alignment algorithms.
We derive different numerical characterizations of a DNA sequence by utilizing its 2-D
graphical representation introduced by Yau et al. (2003). The proposed numerical
methods facilitate DNA comparisons, which is illustrated with an analysis of
dissimilarities between exon-1 of β-globin gene of 11 species.
Moreover, we examine several current comparison methods based on word (kmer)
frequencies. We use these methods to build evolutionary trees for the mitochondrial
genome of 11 vertebrates for which the true tree is known. Our kmer analysis shows that
the squared Euclidean distance of odds ratios for dimers (k=2) produces the best tree.
We use Matlab for the implementation and evaluation of the methods discussed in this
thesis.