Skräp-DNA?? - Nationellt resurscentrum för biologi och bioteknik

Övning i bioinformatik
Nationellt resurscentrum för
biologi och bioteknik
Skräp-DNA??
Ett av de hetaste vetenskapliga fälten idag är det område där biologi, informationsteknologi och
datavetenskap kombineras till en enhet som kallas bioinformatik.
Ca 98% av mänskligt DNA kodar inte för proteiner och har ingen känd funktion. Det kallas ibland
skräp-DNA (”junk” DNA), men det är egentligen inte något bra ord eftersom skräp associerar till
något som inte behövs och som vi kan kasta bort, men det som vi kallar skräp-DNA kanske har
funktioner som vi inte förstår idag. I det här sammanhanget definierar vi skräp-DNA som avsnitt av
DNA som inte kodar för gener. Skräp-DNA finns både inne i gener (introner) och mellan gener.
Själviskt DNA?
En del av detta DNA-matererial består av specifika sekvenser av nukleotider som upprepas ett stort
antal gånger och som inte verkar ha någon känd funktion. Long interspersed elements (LINES)
och short interspersed elements (SINES) är två klasser med sådana repetitiva sekvenser. De är
retrotransposoner, hoppande DNA som förökar sig och förflyttar sig inom genomet. Kanske kan
man betrakta detta som själviskt DNA som parasiterar på en cell för att själv kunna förökas? L1 (ca
15% av genomet) är exempel på LINES och Alu-sekvenser (ca 10% av genomet) hör till SINES.
I denna övning ska du studera relationen mellan “skräp”-DNA och gener, samt uppbyggnaden av
gener (promotor, introner, exoner, poly-A).
Metod
Tre Internetsidor används i den här övningen för att studera gener från olika organismer:
• National Center for Biotechnology Information (NCBI), www.ncbi.nlm.nih.gov
• The Sequence Manipulation Suite, www.ualberta.ca/~stothard/javascript/
• GENSCAN, http://genes.mit.edu/GENSCAN.html
1. Som exempel kan följande gener studeras:
• Xenopus Cad2 gene, NM_204085
• Chicken H1 histone gene, M17019
• Zea Mays alcohol dehydrogenase, M32984
• Norway Rat neurogranin RC3 gene, U22062
• Arabidopsis thaliana DNA chromosome 4 fragment, Z97343
(En alternativ möjlighet att välja gener att undersöka beskrivs nedan.)
2. Gå in på webbsidan från NCBI (www.ncbi.nlm.nih.gov).
3. T.v. i övre delen av sidan står Search. Välj Nucleotide från menyn omedelbart till höger.
(Detta innebär att det blir möjligt att söka efter nukleotidsekvenser i NCBI:s databas.)
4. Välj en gen att studera (t.ex. en av ovanstående gener). Skriv in beteckningen för genen
(t.ex. M32984) i rutan t.h. Klicka på GO. (Om namnen på generna ovan skrivs in i stället
får man för vissa av generna (t.ex. ”Zea Mays alcohol dehydrogenase”) en alltför stor
mängd träffar.)
5. En ny sida öppnas med en klickbar länk. Länken leder i sin tur till en ny sida med en länk
till en sida som innehåller en mängd information, bl.a. finns DNA-sekvensen för genen
längst ner på sidan.
Nationellt resurscentrum för biologi och bioteknik • Bioinformatikövning 2005.11.08 • Får fritt kopieras i icke-kommersiellt syfte om källan anges
6. Markera och kopiera (Ctrl + C) DNA-sekvensen längst ner på sidan.
4. Gå in på The Sequence Manipulation Suite (www.ualberta.ca/~stothard/javascript/). Klicka
på länken Filter DNA som finns t.v. högt upp på sidan.
5. På den sida som öppnas finns en textruta som eventuellt redan innehåller en DNA-sekvens.
Klicka på Clear för att ta bort denna.
6. Klistra in din egen sekvens (Ctrl+V) i rutan. Tryck på Submit för att ta bort siffrorna som
står först i varje rad med nukleotider. (Det går inte att söka på nukleotidsekvensen innan
dessa siffror tagits bort.)
7. Markera (Ctrl + A) och kopiera den redigerade sekvensen (Ctrl+C).
8. Öppna sidan GENSCAN (http://genes.mit.edu/GENSCAN.html).
9. Klistra in den kopierade nukleotidsekvensen i den stora tomma textrutan en bit ner på sidan.
10.Välj organismtyp (Vertebrate, Arabidopsis, Maize) i menyn ovan textrutan.
11.Klicka sedan på Run GENSCAN (står under rutan med den inklistrade DNA-sekvensen).
12.Resultatet innebär en mängd information om genen, exoner, promotorregion, poly A svans
och den förmodade aminosyrasekvensen. (Se exempel M32984 (majs) med förklaringar på
nästa sida.)
13. Beräkna andelen nukleotider (baspar) i genen i förhållande till det totala antalet nukleoti­der
för sekvensen genom att ta reda på hur många baspar hela sekvensen består av, samt hur
många aminosyror som ingår i det protein som sannolikt kommer att bildas. (Totala antalet
baspar står i övre delen av webbsidan och totala antalet aminosyror (enbokstavskod) står
omedelbart ovanför aminosyrasekvensen.) Eftersom en aminosyra kodas av tre nukleotider
multipliceras antalet aminosyror med tre. Antalet kodande nukleotider divideras sedan med
totala antalet nukleotider i sekvensen. Detta ger andelen av den kodande regionen i för
hållande till hela sekvensen.
13.Klicka på Click here to view PDF image of the predicted gene(s). Du får då fram ett
överskådligt diagram som visar exoner, introner och i vilken riktning generna läses av.
14.Studera M32984 från majs
a) Hur många gener finns totalt?
b) Var börjar och slutar genen?
c) Hur många introner och exoner innehåller den?
15. Studera på samma sätt Z97343 från Arabidopsis thaliana. Hur många gener finns totalt i
vardera avläsningsriktningen?
Alternativ möjlighet att välja och studera gener
1. Gå in på webbsidan från NCBI (www.ncbi.nlm.nih.gov).
2. Till höger finns rubriken Hot spots och en bit ner finns länken Human genome resources.
3. Länken leder till en ny sida där det t.v. finns figurer som schematiskt visar människans
kromosomer. Klicka på en av kromosomerna.
4. På den sida som öppnas finns en karta över denna kromosom där de kända generna
anges. Härifrån kan beteckningar på gener hämtas och användas för att studera gener i
den föregående övningen. Vissa av generna har t.h. en länk ”OMIM”. Denna länk ger en
beskrivning av genens funktioner.
5. Om du klickar på någon av generna får du fram information om genen vilken inkluderar
en karta över genen som visar kodande och ej kodande regioner. (Genkartan är inte lika
detaljerad som den karta du får fram i övningen ovan.
Referens
Övningen bygger på och är ett sammandrag av nedanstående artikel:
Visualising ”junk” DNA through bioinformatics
Nancy L Elwess, Sandra M Latourelle, Olivia Cauthorn, Plattsburgh State University, USA.
Journal of Biological Education (2005)39(2)
Artikeln kan hämtas från: www.iob.org/downloads/236.pdf
Nationellt resurscentrum för biologi och bioteknik • Bioinformatikövning 2005.11.08 • Får fritt kopieras i icke-kommersiellt syfte om källan anges
Nedan visas resultatet för genen från majs (M32984) efter GENSCAN. (Det blir små variationer från
gång till gång.) Endast det som är speciellt intressant att lyfta fram har tagits med, övrig information har
tagits bort (i tabellen finns t.ex. endast några av kolumnerna med). Kommentarer/förklaringar har skrivits
in i texten nedan.
GENSCANW output for sequence 04:15:10
GENSCAN 1.0
Date run: 14-Oct-105
Time: 04:15:10
Sequence 04:15:10 : 6225 bp : 43.95% C+G : Isochore 1 ( 0 - 100 C+G%)
Parameter matrix: Maize.smat
Predicted genes/exons(Förklaring till kolumnerna i tabellen, se nedan):
Gn.Ex Type S .Begin ...End .Len
----- ---- - ------ ------ ---1.00 Prom 557
518
40
2.00
2.01
2.02
2.03
2.04
2.05
2.06
2.07
2.08
2.09
Prom
Init
Intr
Intr
Intr
Intr
Intr
Intr
Term
PlyA
+
+
+
+
+
+
+
+
+
+
1129
1275
1843
2077
2540
3545
3694
3881
4143
4300
1168
1308
1979
2123
2865
3606
3789
4042
4259
4305
40
34
137
47
326
62
96
162
117
6
3.00 Prom +
3.01 Init +
5057
5370
5096
5414
40
45
Click here to view a PDF image of the predicted gene(s). PDF-bilden ger en mycket bra
översikt över genen med de olika komponenterna som ingår, se figur nedan.
Predicted peptide sequence(s)(Nedan visas den förmodade aminosyrasekvensen):
>04:15:10|GENSCAN_predicted_peptide_2|326_aa
MATAGKVIKCKAAVAWEAGKPLSIEEVEVAPPQAMEVRVKILFTSLCHTDVDFWEAKGQT
PVFPRIFGHEAGGIIESVGEGVTDVAPGDHVLPVFTGECKECAHCKSAESNMCDLLRINT
DRGVMIADGKSRFSINGKPIYHFVGTSTFSEYTVMHVGCVAKINPQAPLDKVCVLSCGIS
TARKFGCTEFVNPKDHNKPVQEVLAEMTNGGVDRSVECTGNINAMIQAFECVHDGWGVAV
LVGVPHKDAEFKTHPMNFLNERTLKGTFFGNYKPRTDLPNVVELYMKKELEVEKFITHSV
PFAEINKAFDLMAKGEGIRCIIRMEN
>04:15:10|GENSCAN_predicted_peptide_3|15_aa
MENDKGVFWKVSFPR
Explanation(till tabellen ovan):
Gn.Ex : gene number, exon number (for reference)
Type : Init = Initial exon (ATG to 5’ splice site)(Den första exonen i genen.)
Intr = Internal exon (3’ splice site to 5’ splice site)(Exoner inne i
genen.)
Term = Terminal exon (3’ splice site to stop codon)(Avslutande exon.)
Sngl = Single-exon gene (ATG to stop)(Genen består av endast en exon.)
Prom = Promoter (TATA box / initation site)(Promotor, relgerar genuttrycket.)
PlyA = poly-A signal (consensus: AATAAA)
S
: DNA strand (+ = input strand; - = opposite strand)
Begin : beginning of exon or signal (numbered on input strand)
End
: end point of exon or signal (numbered on input strand)
Len
: length of exon or signal (bp = antal baspar)
Nationellt resurscentrum för biologi och bioteknik • Bioinformatikövning 2005.11.08 • Får fritt kopieras i icke-kommersiellt syfte om källan anges
Figuren nedan visar sekvensen M32984 från majs och uppdelningen i introner och exoner.
Figuren nedan visar en del av sekvensen Z97343 från Arabidopsis. Här syns ett betydligt mer
komplicerat mönster av olika gener. Ovan linjen (DNA-molekylen) med markeringar som visar
kb (tusenbaspar) syns sju gener med introner och exoner. Nedanför linjen visas fem hela gener
och två delar av gener längst t.v. och t.h. Generna ovan respektive under linjen (DNA-molekylen)
läses av motsatta riktningar som visas av pilarna
Nationellt resurscentrum för biologi och bioteknik • Bioinformatikövning 2005.11.08 • Får fritt kopieras i icke-kommersiellt syfte om källan anges