Optimering av metodiken vid genotypning av stora DNA

Optimering av metodiken vid genotypning av stora
DNA-material
Karin Jensevik
U.U.D.M. Project Report 2003:14
Examensarbete i matematisk statistik, 20 poäng
Handledare: Lars Berglund, UCR, Uppsala universitet
och Tomas Axelsson, Institutionen för medicinska vetenskaper, Uppsala universitet
Examinator: Dag Jonsson
Oktober 2003
Department of Mathematics
Uppsala University
Sammanfattning
Vid studier av människans DNA används ibland så kallade genetiska markörer för att mäta
olika typer av genetisk variation. Dessa markörer studeras sedan när man genotypar sitt DNAmaterial, dvs. man läser av markörerna för varje individ som ingår i studiepopulationen.
Vid genotypning av stora DNA-material skulle en förfinad metodik spara både tid och pengar.
Målet är att på ett tidigt stadium i genotypningen upptäcka de markörer som är kopplade till
varandra. Genom att mäta kopplingsgraden mellan par av genetiska markörer kan man
överväga, om beroendet är starkt, att bortse från en av markörerna i den fortsatta
genotypningen.
Det visade sig att det inte fanns något självklart uttryck för variansen till det mått vi valt att
beräkna kopplingsgraden med. Detta gjorde att vi fick härleda en variansformel och testa dess
egenskaper med simuleringsmetoder. De simuleringsmetoder som användes var bootstrapmetoden och jackknife-metoden. Det bästa resultatet erhölls från jackknife-metoden och
enkelsidiga 95 % konfidensintervall till kopplingsmåtten räknades fram. Via en enkel grafisk
lösning kan sedan ett snabbt svar fås om kopplingen mellan markörerna i ett par är tillräckligt
stark för att avsluta genotypning av en av markörerna.
Ett tack till…
Jag vill tacka min examinator Dag Jonsson (Matematiska institutionen, Uppsala Universitet)
och mina handledare Lars Berglund (UCR, Uppsala Universitet) och Tomas Axelsson
(Institutionen för medicinska vetenskaper, Uppsala Universitet) för all hjälp och vägledning
under mitt examensarbete.
Ett tack även till alla andra som jag har varit i kontakt med under arbetets gång.
Innehållsförteckning
Innehållsförteckning................................................................................................................... 1
1. Introduktion............................................................................................................................ 2
2. Genetisk bakgrund.................................................................................................................. 3
2.1. Grundläggande begrepp .................................................................................................. 3
2.1.1. Rekombination ......................................................................................................... 5
2.2. Genotyper och haplotyper ............................................................................................... 7
3. Linkage Disequilibrium.......................................................................................................... 9
3.1. Vad menas med Linkage Disequilibrium? ...................................................................... 9
3.2. Olika mått på graden av LD ............................................................................................ 9
4. Studiepopulation och datamaterial ....................................................................................... 12
4.1. Genotypning och studiepopulation................................................................................ 12
4.2. Datamaterial .................................................................................................................. 12
5. Metoder ................................................................................................................................ 14
5.1. Programvara .................................................................................................................. 14
5.2. Omskrivning av R ......................................................................................................... 14
^
5.3. Härledning av en allmän variansformel för R .............................................................. 16
5.4. Simuleringsmetoder ...................................................................................................... 19
5.4.1. Bootstrap ................................................................................................................ 19
5.4.2. Jackknife................................................................................................................. 20
5.4.3. Jämförelser mellan bootstrap och jackknife........................................................... 21
5.4.4. Bootstrap- och jackknife-simuleringarna ............................................................... 22
6. Resultat................................................................................................................................. 24
6.1. De 10 LD-måtten och deras standardavvikelser enligt Gauss-approximationen .......... 24
6.1.1. Resultat av bootstrap- och jackknife-simuleringarna............................................. 26
6.1.2. Jämförelser mellan de tre olika standardavvikelserna............................................ 27
6.2. Vid vilket n kan man överväga att endast genotypa en SNP?....................................... 30
7. Diskussion ............................................................................................................................ 33
8. Referenser............................................................................................................................. 34
9. Genetisk ordlista................................................................................................................... 36
Bilaga 1. Haplotyptabeller för de tre mindre stickproven........................................................ 41
^
Bilaga 2. Resultatet av Taylorutvecklingen m.a.p. de första partiella derivatorna för R i
Maple........................................................................................................................................ 42
^
Bilaga 3. Konstanterna Ca, Cb, Cc och Cd i uttrycket för variansen för R ............................ 43
Bilaga 4. SAS-utskrift av resultatet från regressionsanalysen ................................................. 44
Bilaga. 5 1000 standardavvikelser genererade m.h.a. SAS...................................................... 45
1
1. Introduktion
Genetiken är en relativt ung vetenskap som innehåller många frågeställningar som man ännu
inte funnit svar på. Man gör fortfarande nya upptäckter och man slutförde alldeles nyligen en
omfattande kartläggning av människans genom, arvsmassa. Studier av människans arvsanlag
har t. ex. påvisat att vissa sjukdomar kan vara ärftliga.
Vid studier av människans DNA används ofta så kallade genetiska markörer för att mäta olika
typer av genetisk variation. Dessa markörer studeras sedan när man genotypar sitt DNAmaterial, dvs. man läser av markörerna för varje individ som ingår i studiepopulationen.
Syftet med detta examensarbete är att förfina metodiken vid genotypning av stora DNAmaterial. Man vill på ett tidigt stadium i genotypningen kunna upptäcka om det finns några
markörer som är kopplade till varandra. Starkt kopplade markörer ökar inte
informationsvärdet och genom att mäta kopplingsgraden mellan par av genetiska markörer
kan man överväga, om beroendet är starkt, att bortse från en av markörerna i den fortsatta
genotypningen. Detta sparar både tid och pengar vid genotypning av stora DNA-material.
I kapitel 2 förklaras de genetiska begrepp och termer, som denna uppsats innefattar. De
kopplingsmått som finns att tillgå vid beräkningar av beroende mellan olika typer av
genetiska markörer i en DNA-sekvens introduceras i kapitel 3. Sedan följer i kapitel 4 en
presentation av studiepopulationen och en beskrivning av valet av datamaterial, som
beräkningarna sedan utfördes på. Det visade sig att det inte fanns något självklart uttryck för
variansen till det mått vi valt att beräkna kopplingsgraden med. Detta gjorde att vi fick härleda
en variansformel och testa dess egenskaper med simuleringsmetoder. Hur detta gjordes
redovisas i kapitel 5. I kapitel 6 sammanfattas de resultat vi fick och i kapitel 7 diskuteras
resultaten.
I kapitel 9 finns en genetisk ordlista, som ger en lite mer detaljerad förklaring av de genetiska
termer och begrepp, som är markerad med kursivstil i texten.
2
2. Genetisk bakgrund
2.1. Grundläggande begrepp
De mest grundläggande enheterna vid studier av arv hos människan är generna. Människan
har ca 30 000 gener som är uppdelade på 46 kromosomer, som i sin tur bildar 23 stycken
kromosompar. Ett av kromosomparen bestämmer könet på individen. Dessa kromosomer
kallas för X- och Y-kromosomer, könskromosomerna. Kvinnor har ett par av X-kromosomer
medan män har en X-kromosom och en Y-kromosom. Övriga kromosomer kallas autosomer.
I ett kromosompar är den ena kromosomen ett arv från fadern och den andra kromosomen ett
arv från modern. Dessa kromosomer är lika till form och storlek, samt nästan identiska i
genetisk komposition. Man säger att dessa kromosomer är homologa. Människans
kroppsceller har alltså dubbel uppsättning av kromosomer, en från varje förälder. Sådana
celler eller individer kallas för diploider.
De minsta byggstenarna i en kromosom är basparen, som består av de fyra kvävebaserna
adenin (A), cytosin (C), guanin (G) och tymin (T). Adenin och tymin binder kemiskt med
varandra och cytosin binder kemiskt med guanin. Kvävebaserna bildar tillsammans med
fosfat- och sockergrupper nukleotider. Gener är sammansatta sektioner av nukleotider, som
bildar en lång molekyl kallad deoxyribonukleinsyra, DNA. DNA-molekylen har formen av en
dubbelspiral, en s.k. dubbel helix. (Figur 1).
Figur 1: Schematisk bild över kromosomens byggstenar och utseende. [15]
3
En individs DNA-sekvens är till 99.9 % identisk med en annan individs DNA-sekvens. Cirka
80 % av de 0.1 % DNA, som skiljer sig åt mellan individer, är så kallade Single Nucleotide
Polymorphisms, SNP.[16] En SNP är en genetisk variation som förekommer i en individs
DNA-sekvens. Det är en enkel bassubstitution av en nukleotid med en annan, t.ex. att en
nukleotid med basen A har ersatt en av de andra nukleotiderna C, G eller T.[19] Ett exempel på
en SNP är om en individ har DNA-sekvensen GAACCT i en av kromosomerna i ett homologt
kromosompar och DNA-sekvensen GAGCCT i den andra kromosomen, dvs. variationen i
den tredje positionen utgörs av baserna A och G. Man säger att polymorfismen är A/G (Figur
2). Det speciella genetiska mönstret som ses i en individs DNA kallas för genotyp och i
exemplet i figur 2 är A/G en av tre möjliga genotyper för just denna polymorfi, som en
individ kan ha i populationen. Det två andra genotyperna en individ kan ha i exemplet nedan
är A/A eller G/G. [16]
Figur 2: En Single Nucleotide Polymorphism, SNP [15]
Man säger att en individ är heterozygot för en SNP när kvävebaserna är olika, t.ex. A/G, och
homozygot om det är två likadana kvävebaser, t.ex. A/A.
För att få ett korrekt resultat vid bestämning av SNP är det viktigt att man ”läser av” basparen
i kromosomerna från samma håll, dvs. att man väljer en sida av den kemiska bindningen
mellan basparen i DNA-molekylen och läser av dessa baspar. I exemplet ovan blir en
heterozygot individ T/C om man läser av basparen på den motsatta sidan av den kemiska
bindningen.
För att det ska vara en SNP måste den minst förekommande basen i en genotyp förekomma
med en frekvens större än 1 % i den allmänna populationen på kromosomnivå.[16] Med
kromosomnivå menas att man tittar på alla kromosomer i populationen, dvs. två gånger
antalet individer i populationen. Om frekvensen för den minst förekommande basen i en
genotyp är mindre än 1 % kallas inte DNA-variationen för SNP utan istället för mutation.
Människans DNA producerar proteiner som har olika funktioner i våra celler. Det är
basparens inbördes ordning i en DNA-sekvens som bestämmer vilken typ av protein som ska
bildas. Dock är det endast ca 3-5 % av en individs DNA, som kodar för produktionen av
4
protein. Resten sägs hittills bara vara ”tom” kod. De flesta SNP:ar hittas just i dessa avsnitt av
”tom” kod. SNP:ar som finns med i ett avsnitt som kodar för protein eller som styr uttrycket
av genen är av stort intresse, eftersom det kan bidra till alternering av biologiska funktioner
hos proteinet eller leda till att förändra mängden protein som bildas.
En eller flera alternativa former av en gensekvens vid ett specifikt kromosomalt locus kallas
för en allel. Med locus (pl. loci) menas en unik kromosomal plats som definierar positionen
för en enskild gen eller en DNA-sekvens eller ett baspar. Man har alltid två alleler vid ett s.k.
autosomalt locus, dvs. i våra kroppsceller, en från modern och en från fadern. Dessa alleler
kan vara lika eller olika, samt ha olika typer av nedärvningsmönster som t.ex. dominanta eller
recessiva alleler.
Om egenskapen har dominant nedärvning som i ögonfärg, är det den dominanta allelen som
bestämmer. Till exempel om en person ärver en allel för bruna ögon från en förälder och en
allel för blåa ögon från den andra föräldern kommer det nästan alltid resultera i att personen
får bruna ögon, eftersom den allel, som ger brun ögonfärg är dominant gentemot blå
ögonfärg. För att en recessiv allel skall slå igenom måste det finnas två recessiva alleler och
ingen dominant allel vid ett och samma locus. [13]
2.1.1. Rekombination
Det är endast vid celldelning som kromosomerna blir synliga för oss. Det är då de långa
DNA- molekylerna ”rullar” ihop sig och får en kryssliknande form, som då kan ses med hjälp
av ett mikroskop. Det finns två typer av celldelning, mitosis och meiosis. Mitosis sker i våra
”vanliga” celler, t ex. vid tillväxt, medan meiosis bildar könsceller, dvs. ägg hos kvinnan och
spermier hos mannen. [6] Könscellerna innehåller inga homologa kromosompar utan endast en
uppsättning av kromosomer, dvs. 23 stycken. Celler som endast har en uppsättning av
kromosomer kallas för haploider. Vid befruktningen då ägg och spermie förenas bildas en
diploid cell med varsin uppsättning kromosomer från modern och från fadern.
Kvinnor bildar könsceller endast en gång i livet och det är i fosterstadiet. Då bildas cirka
600.000 ägg. För männen börjar produktionen av spermier i puberteten och dessa nybildas
sedan regelbundet under hela livet. Figur 3 visar en bild av de olika faserna i meiosis.
Figur 3: Illustration över hur 4 könsceller bildas när en enkel diploid föräldrarcell delar sig
och bildar fyra haploida dotterceller. [15]
5
Under profas 1 i meiosis kan det ske något som kallas för rekombination. Det är då par av
homologa kromosomer kommer i kontakt med varandra och utbyter segment. Varje
kromosom består av två så kallade syster-kromatider, som är exakt identiska med varandra.
Dessa förenar sig vid celldelning och hålls ihop av en punkt som kallas för centromer. Bara
två av de fyra kromatiderna är involverade i rekombinationen. Processen kallas också
överkorsning eller crossover. Om överkorsning sker mellan två loci på homologa kromatider
kommer två kromatider att skapas som är rekombinanta. Följaktligen genererar en sådan
crossover 50 % rekombinanta kromatider och 50 % icke-rekombinanta kromatider s.k.
föräldrartyper. Sannolikheten att en överkorsning sker mellan två närliggande loci är mindre
än om avståndet är stort mellan dem. Därför kommer rekombination sällan att separera loci
som ligger väldigt nära varandra på en kromosom. Detta leder till att set av alleler inom
begränsade kromosomala segment tenderar att bli överförda som block genom generationer.
Ett sådant block kallas för haplotyp. [6]
Låt oss antaga att vi har en individ som är heterozygot för två loci som ligger på samma
kromosom, t.ex. a1A1 b2B2, och att allelerna a1 och b2 för denna individ kommer från en
förälder och att A1 och B2 kommer från den andra föräldern. Denna individs barn som ärver
en av föräldrarkombinationerna a1b2 eller A1B2 sägs vara icke-rekombinanta, dvs. de ärver en
hel haplotyp. Däremot barn som ärver a1B2 eller b2A1 sägs vara rekombinanta, dvs.
haplotypen bryts upp. Proportionen barn vilka är rekombinanta är rekombinationsandelen θ
mellan de två loci 1 och 2. [6]
Figur 3: Visar ett schema över en kromosom som duplicerar sig under meiosis och vars
kromatider utbyter DNA-segment med varandra, en så kallad överkorsning.
Kromosomalsegment inom begränsade områden är opåverkade av rekombination och behåller
därför sin struktur. Detta innebär att DNA-variationer, som t.ex. SNP:ar, inom segmentet
nedärves i ett haplotypblock. Färska undersökningar har visat att människans genom
(arvsmassa) kan delas upp i haplotypblock med en begränsad diversitet, dvs. de typer av
6
haplotypblock, som man kan rekonstruera med hjälp av DNA-markörer, som t.ex. SNP:ar, i
människans genom är relativt få. I fall då man ej kan påvisa att enskilda polymorfier påverkar
en egenskap kan analys av haplotyper användas. Endast ett begränsat antal SNP:ar behövs för
att skilja på olika haplotyper vilket gör att det inte är nödvändigt att genotypa samtliga
polymorfier inom ett haplotypblock.
Förhoppningen är att genetiska studier av t.ex. komplexa sjukdomar och egenskaper kommer
att förenklas genom analys av haplotyper. Detta förutsätter dock att DNA-variationer som
påverkar dessa egenskaper är ”vanliga” och finns i relativt hög frekvens i populationen.
Mutationer som uppkommit naturligt i en individ eller på grund av strålning eller virus kan ge
upphov till DNA-variationer, men dessa uppträder oftast i enstaka individer eller familjer och
räknas inte som ”vanliga” DNA-variationer.
2.2. Genotyper och haplotyper
I tabell 1 nedan visas ett exempel med de tre möjliga genotyperna för ett par av SNP:ar och
deras frekvenser nij i stickprovet, där i, j = 1, 2, 3. Genotyperna är C/C, C/T och T/T för SNP
1 och A/A, A/G och G/G för SNP 2. Haplotyperna i detta exempel ges i tabell 2 nedan.
Tabell 1. Genotypsfrekvenser för ett par av SNP:ar
SNP 1
C/C
C/T
T/T
radsumma
A/A
n11
n12
n13
n1.
A/G
n21
n22
n23
n2.
G/G
n31
n32
n33
n3.
kolonnsumma
n.1
n.2
n.3
n..
SNP 2
När man har två SNP:ar som båda är homozygoter blir haplotypbestämningen enkel. I tabell 1
ovan finns det n11 stycken personer vars SNP 1 är C/C och SNP 2 är A/A. Dessa kan vi
kombinera på två sätt men de båda sätten ger samma haplotypresultat, CA. När vi sedan ska
räkna fram haplotypfrekvensen för CA får vi multiplicera n11 med två. Låt oss nu titta på de
personer, n21 och n12, som har SNP-kombinationer med en homozygot SNP och en
heterozygot SNP. De personer vars SNP 1 är C/C och SNP 2 är A/G har
haplotypkombinationerna CA och CG och de personer vars SNP 1 är C/T och SNP 2 är A/A
har haplotypkombinationerna CA och TA. Här ser vi att haplotypen CA förekommer i de
båda fallen, så n21 och n12 ska även räknas med i haplotypfrekvensen för CA.
Haplotypsbestämningen av n22, SNP 1 C/T och SNP 2 A/G, är ej entydig. Förklaringen är att
vi här har två SNP:ar som båda är heterozygoter. I ett laboratorium kan man inte avgöra från
vilken förälder nukleotiderna kommer från, vilket resulterar i att vi får olika möjliga
haplotyper, dvs. CA och TG, eller TA och CG. Oftast är en av haplotypvarianterna mer vanlig
än den andra och förekommer med en större sannolikhet i populationen.
För att kunna bestämma vilken av haplotypvarianterna som är mer vanlig tas EM-algoritmen
till hjälp. EM-algoritmen är en iterativ metod som ger en maximum likelihood-skattning (ML)
av haplotypfrekvenserna i en multinomial population, förutsatt att man inte väljer partner efter
haplotyper.[9]
7
Låt oss säga att det är haplotyperna 1 och 4, se tabell 2, som är mest vanliga i DNA-materialet
och att de förekommer tillsammans i populationen med en sannolikhet 0.97. Vi ska då addera
0.97*n22 till Haplotyp 1 och Haplotyp 4, samt 0.03* n22 till Haplotyp 2 och Haplotyp 3.
Tabell 2. Haplotyper
Haplotyp 1: C A
Haplotyp 2: T A
Haplotyp 3: C G
Haplotyp 4: T G
= 2*n11 + n12 + n21 + 0.97*n22
= n12 + 2*n13 + n23 + 0.03*n22
= n21 +2*n31 + n32 + 0.03*n22
= 2*n33 + n32 + n23 + 0.97*n22
=a
=b
=c
=d
Nu är haplotypbestämningarna fullständiga. Tabell 2 över haplotyperna och deras frekvenser
kan skrivas om till en korstabell. Tabell 3 visar de absoluta haplotypfrekvenserna för ett
stickprov.
Tabell 3. Korstabell för de absoluta haplotypfrekvenserna för ett stickprov
SNP 1
SNP 2
C
T
A
a
b
G
c
d
Tabell 4 visar de relativa haplotypfrekvenserna för stickprovet och tabell 5 visar de
motsvarande haplotypfrekvenserna för populationen.
Tabell 4. Korstabell för de relativa haplotypfrekvenserna för ett stickprov
SNP 1
SNP 2
C
T
summa
A
pra
prb
pra + prb
G
prc
prd
prc + prd
summa
pra + prc prb + prd
1
Tabell 5. Korstabell för de relativa haplotypfrekvenserna i populationen
SNP 1
SNP 2
8
C
T
summa
A
pa
pb
pa + pb
G
pc
pd
pc + pd
summa
pa + pc
pb + pd
1
3. Linkage Disequilibrium
3.1. Vad menas med Linkage Disequilibrium?
Den kopplingsgrad, som nämndes i introduktionen och som mäter beroendet mellan par av
genetiska markörer kallas för Linkage Disequilibrium*. Definitionen av Linkage
Disequilibrium (LD) eller allelic association som det också kallas, är när enskilda alleler vid
två distinkta loci förekommer mer frekvent i könscellerna än förväntat under hypotes om
oberoende, dvs. linkage equilibrium. Detta förutsätter att man känner till allelfrekvenserna i
populationen mellan de aktuella loci, samt rekombinationsandelen θ.[13]
LD hänvisar till ett icke-oberoende förhållandet mellan alleler vid olika positioner. Antag till
exempel att allelen A vid locus 1 och allelen B vid locus 2 har frekvenserna π A respektive
π B i populationen. Om de två loci är oberoende av varandra förväntas allelfrekvensen för
AB-haplotypen vara π A π B . Visar det sig att allelfrekvensen i populationen för ABhaplotypen antingen är lägre eller högre än π A π B , vilket i det senare fallet indikerar att vissa
alleler tenderar att bli observerade tillsammans, så är de två loci i LD med varandra.[12]
När man studerar närliggande SNP:ar finns det ofta en grad av LD , dvs. att en persons värde
på SNP 1 kan predicera personens värdet på SNP 2. En förklaring till detta kan vara att SNP 1
och SNP 2 ingår i samma haplotypblock. Om man vet att SNP:arna står i hög LD med
varandra kan man välja att endast genotypa en av dem. Det sparar både tid och pengar vid
genotypning av stora DNA-material.
3.2. Olika mått på graden av LD
Ett locus med två alleler kallas för ett di-allelt locus, dvs. det finns två varianter av ett locus
som skiljer sig på något sätt, t.ex. en polymorfi som en SNP.
För ett par av di-allela loci, 1 och 2, mäter LD-statistikan D skillnader mellan två kvantiteter:
(1) Sannolikheten för att en allel från locus 1, (A1), och en allel från locus 2, (B2),
förekommer tillsammans på samma kromosom.
(2) Den förväntade förekomsten av A1 och B2 tillsammans under linkage equilibrium.
Det uttryck som vi här betecknar p11 är proportionen av kromosomer på vilka allelerna A1
och B2 förekommer tillsammans i en population.
Under linkage equilibrium är detta lika med produkten av allelfrekvenserna av A1 och B2 i
populationen, dvs. differensen blir
(3.1)
D = p11 − p1 q1
* equilibrium = jämviktsläge
9
Tabell 6. Relativa allelfrekvenserna för loci A och B
A2
B2
p1-p11
p11
A1
q1-p11
1-p1-q1+p11
B1
q1
q2
Summa
Summa
p1
p2
1
Om D skiljer sig signifikant ifrån 0, så säger man att LD troligtvis existerar. Graden av LD
mellan två loci är beroende av både rekombinationsandelen θ och tiden t i generationer,
t
Dt = D 0 (1 − θ ) . Detta leder till att D tenderar att minska när de två loci kommer längre ifrån
varandra och med tiden genom rekombination. D ger en enkel indikation om frekvensen av
rekombination, samt om det fysiska avståndet mellan två loci.
D kan skalas om till D’=D/Dmax, där Dmax= min( p1 q 2 , p 2 q1 ). I många jämförbara analyser
där man har mätt LD mellan två loci har det visats sig att i nästan alla fall har LD-måttet D’
varit att föredra när man beräknar det fysiska avståndet mellan SNP:ar eller markörer. Det
beror till största delen på att andra mått, som till exempel D, är beroende av allelfrekvenserna.
En annan vanlig omskalning av D är R, som fås genom att dividera uttrycket för D med
( p1 p 2 q1q 2 ) .
(3.2)
R=
p11 − p1 q1
p1 p 2 q1 q 2
där − 1 ≤ R ≤ 1
^
^ 2
Vid insättning av de observerade haplotypfrekvenserna fås R . R har formen χ 2 N , där
χ 2 -statistikan med 1 frihetsgrad kan åstadkommas från en 2*2-tabell av de absoluta
haplotypfrekvenserna, ( a, b, c, d ) (se tabell 3). N är här det totala antalet haplotyper i
stickprovet. Detta gäller under förutsättning att loci A och B är oberoende av varandra, dvs.
under hypotesen att p11 = p1 q1 . Det handlar alltså om χ 2 -statistikan vid ett oberoendetest. [11]
LD-måtten R och R2 har några fördelar jämfört med D’. För små stickprovsstorlekar och för
låga allelfrekvenser överskattas D’, medan R uppvisar mer pålitliga stickprovsegenskaper.
För ett par av SNP:ar måste det definitionsmässigt minst finnas två haplotyper med en
frekvens > 0. D’ kommer att vara lika med 1.0 när en eller två haplotyper saknas i stickprovet.
Fördelen med R är att R är lika med 1.0 när det bara är två haplotyper som saknas av de fyra
möjliga.
När ingen rekombination har skett mellan två markörer kommer D’ att vara lika med 1.0,
förutsatt att inte det förekommit någon mutation eller fel vid genotypningen. Detta gäller ej
för R, som är beroende av allelfrekvenserna för de två markörerna. Detta medför att man
använder sig av D’ vid modellering av graden av rekombination och R och R2 vid
modellering av associationsstyrkan. En annan viktig egenskap hos R vid associationsstudier är
när man ska designa en studie för att hitta association mellan en specifik SNP A och en
sjukdom och samtidigt uppnå en given styrka i studien. Om man antar att man kommer att
mäta en SNP B som en markör med en viss grad av LD, mätt med R, till SNP A så behöver
man öka antalet individer i studien med faktorn 1 R 2 för att få rätt styrka i testen. Detta enkla
förhållande mellan styrkan för två SNP:ar föreligger inte om man använder D eller D’ som
LD-mått.[8]
Ett aktuellt ämne som är av stort intresse är omfattningen av och fördelningen för LD i
människan. LD spelar en fundamental roll vid kartläggningen av gener, både som ett verktyg
10
för en noggrannare kartläggning av komplexa sjukdomar och i den planerade vidsträckta
associationsstudien av mänskliga gener. LD är också av intresse för vad den kan avslöja om
människans historia och människans ursprung, eftersom fördelningen av LD i huvudsak
bestäms av populationens historia. [12]
Eftersom vi varken är intresserade av att beräkna det fysiska avståndet mellan SNP:arna eller
rekombinationsandelen har vi valt att använda LD-måttet R i våra beräkningar av LD.
11
4. Studiepopulation och datamaterial
4.1. Genotypning och studiepopulation
Vid enheten för molekylär medicin vid institutionen för medicinska vetenskaper i Uppsala
bedrivs genotypning med flera olika metoder för ett antal tillämpningsområden. Som exempel
kan nämnas farmakogenomik, där kandidatgener som reglerar svar på läkemedelsbehandling
studeras.
Vid genotypning har man möjlighet att studera stora patientmaterial av DNA.
Tillvägagångssättet är att man väljer ut ett kromosomalt område eller en eller flera gener man
vill studera och sätter så kallade marker, genetiska markörer, vid de SNP:ar man är
intresserade av. Sedan genotypas dessa för varje person som är med i studien, dvs. man läser
av SNP:arna vid markörerna för varje person.
Det material som legat till grunden för vårt arbete är ULSAM, Uppsala Longitudinal Study of
Adult Men.[20] Detta är en pågående studie av nästan alla män som är födda mellan 1920 och
1924 och som bodde i Uppsala kommun 1970. Dessa män blev undersökta vid 50, 60, 70 och
77 års ålder. Man har fokuserat sig på att identifiera faktorer som tros ligga bakom
kardiovaskulära och metabola sjukdomar, som t. ex. hjärtinfarkt och diabetes.[7] Eftersom det
nästan är alla män som är födda mellan dessa år är det ett populationsbaserat material.
Det är totalt 2322 män som ingår ULSAM-projektet, men det DNA-material som vi har haft
tillgång till omfattar 1052 män, som var med vid 70-årsundersökningen och för vilka DNA
finns sparat.
4.2. Datamaterial
DNA-materialet från genotypningen består av 5 st gener med 10, 14, 8, 6 samt 1 SNP:ar. Vi
är endast intresserade av att beräkna LD för par av SNP:ar inom gener. Med hjälp av
dataprogrammet Haplotyp Reconstructor, framtaget för att beräkna haplotyper, valdes den
gen, som när ofullständiga genotypdata tagits bort gav störst stickprovsstorlek. Denna gen har
5 SNP:ar, som är numrerade 2, 3, 4, 8 och 9, samt en stickprovsstorlek på 952 personer. Detta
ger oss 10 st LD-mått att analysera. Nästa steg var att haplotypbestämma materialet med de 5
SNP:arna. Resultatet blev följande:
Tabell 7. Estimerade haplotypsdata för de 10 paren av SNP:ar
SNP nr
a
b
c
2-3
1240
3
0
2-4
503
740
661
2-8
533
710
647
2-9
882
361
601
3-4
500
740
664
3-8
530
710
650
3-9
879
361
604
4-8
1128
36
52
4-9
888
276
595
8-9
920
260
563
12
d
661
0
14
60
0
14
60
688
145
161
N
1904
1904
1904
1904
1904
1904
1904
1904
1904
1904
Här motsvarar a, b, c och d de fyra möjliga haplotyperna i stickprovet, jämför med tabell 3.
Beräkningarna av LD sker på kromosomnivå, så stickprovsstorleken ökar till 1904, eftersom
människan är en diploid organism.
När man genotypar stora DNA-material skulle det vara optimalt om man på ett tidigt stadium,
t.ex. efter ca 50 genotypningar, kunde avgöra om kopplingsgraden mellan SNP:ar är så stor
att man kan utesluta någon SNP i den fortsatta genotypningen. Detta har gjort att vi har tagit 3
st mindre stickprov från det ursprungliga stickprovet på 952 personer. De 50, 100 respektive
150 första personerna från det ursprungliga stickprovet utgör dessa mindre stickprov. Tanken
är att vi ska studera kopplingsmåtten i de mindre stickproven och se om de resultat vi får
stämmer överens med resultatet i det stora stickprovet. Resultaten av haplotypbestämningarna
för de mindre stickprovsstorlekarna finns under bilaga 1.
13
5. Metoder
5.1. Programvara
I våra beräkningar använde vi oss av SAS[22] version 8.2, som är ett statistiskt
mjukvaruprogram för datorer. Vi hade också användning av ett matematiskt
formelberäkningsprogram, Maple[21] version 8.
5.2. Omskrivning av R
Om man tittar på tabellerna 5 och 6 ser man att de beskriver samma sak. Detta ger oss
följande samband för allelfrekvenserna:
p11 = p a
p1 = p a + pb
p2 = pc + pd
q1 = p a + p c
q 2 = pb + p d
p a + pb + p c + p d = 1
(5.1)
Med hjälp av detta kan vi nu skriva om uttrycket för R.
D = p11 − p1 q1 =
= p a − ( p a + pb )( p a + p c ) =
(5.2)
= p a − ( p a2 + p a pc + pb p a + pb p c ) =
= p a − p a2 − p a pc − pb p a − pb p c =
= p a (1 − p a − p c − pb ) − pb p c =
= p a p d − pb p c
Detta ger oss slutligen följande formel för R,
(5.3)
14
R=
D
p1 p 2 q1 q 2
=
p11 − p1 q1
p1 p 2 q1 q 2
=
p a p d − pb p c
( p a + pb )( p c + p d )( p a + p c )( pb + p d )
Definition 5.1.
Låt a, b, c och d vara de absoluta frekvenserna av de fyra haplotyperna i stickprovet och
p a , pb , p c , p d de motsvarande relativa haplotypfrekvenserna i populationen. Då definieras ρ
enligt följande,
(i)
ρ = abs(R) där
(ii)
R = ( p a p d − pb p c ) /(( p a + pb )( p a + pc )( pb + p d )( pc + p d ))1 / 2
Stickprovsestimatet av R uttryckt i de absoluta haplotypfrekvenserna,
^
R = (ad − bc) /((a + b)(a + c)(b + d )(c + d ))1 / 2
och uttryckt i de relativa haplotypfrekvenserna,
^
R = ( pra prd − prb prc ) /(( pra + prb )( pra + prc )( prb + prd )( prc + prd ))1 / 2
Att man tar absolutbeloppet av R är en praxis i genetiska sammanhang.
Sats 5.1.
^
^
^
Stickprovsestimatet av ρ är ρ = r = abs ( R) . Variansen för R är följande under hypotesen
H0: Inget samband.
(1)
^
1 − R 2 + (R +
Var ( R ) =
−
( p a − p d ) 2 − ( pb − pc ) 2
1 3
R )
2
(( p a + p b )( p a + p c )( p b + p d )( p c + p d ))1 / 2
n
3 2  ( p a + pb − p c − p d ) 2 ( p a + p c − pb − p d ) 2
−
R 
4  ( p a + pb )( p c + p d )
( p a + p c )( pb + p d )




n
(2)
(3)
^
σ = Var ( R)
 2σ 2
 1  R 2 
  R    R 

Var (r ) = Var ( R ) + R −
exp −    + R Φ  −  Φ −    
 2 σ  
 π
  σ    σ    



där Φ (x) är fördelningsfunktion för standardnormalfördelningen N(0.1).
^
2
2
Den variansformel som ges ovan (1) gäller för ρ -värden kring 0. Den förutsätter att inget
samband råder mellan SNP:arna, vilket inte är tillräckligt för oss. Vi behöver ett allmänt
^
uttryck för variansen av R .
15
^
5.3. Härledning av en allmän variansformel för R
^
Vi behöver alltså finna ett allmänt uttryckt för Var ( R ) , som sedan kan ge oss Var (r ) . Dessa
^
beräkningar är inte helt triviala, eftersom uttrycket för R är en kvot med fyra variabler. Ett
^
^
sätt att få en approximation av Var ( R) är att Taylorutveckla uttrycket för R kring
^
väntevärdet E (R) . Vi nöjer oss med att endast ta med de första partiella derivatorna för R ,
eftersom det ger oss ett linjärt uttryck, som i sin tur underlättar fortsatta beräkningar. Sedan
används Gauss-approximationsformel för variansen. Vi använde oss av Maple för att göra
^
ovanstående Taylorutveckling på R (Bilaga 2), men visar här i liten skala hur principen går
^
till. För att gör det hela lite enklare väljer vi att tittar på R :s täljare.
(5.4)
täljare = f ( pra , prb , prc , prd ) = pra prd − prb prc
De första partiella derivatorna med avseende på täljarens fyra variablerna ( pra , prb , prc , prd ) ,
som är de relativa frekvenserna i stickprovet, räknas fram. Dessa partiella derivator sätt sedan
in i Taylorutvecklingen för täljaren.
Definition 5.2.
Om alla ordningar av derivator till f (x ) existerar i punkten x = c , dvs. om f ( k ) (c) existerar
för k = 0,1,2,... så kallar vi
∞
∑
k =0
f ' ' (c )
f ( k ) (c )
( x − c) 2 + ...
( x − c) k = f (c) + f ' (c)( x − c) +
k!
2!
Taylorutvecklingen av f kring x = c .
v
Täljaren (5.4) Taylorutvecklades kring vektorn p = ( p a , pb , p c , p d ) .
f ( pra , prb , prc , prd ) Taylor
 ∂f ( pra , prb , prc , prd ) 
 ( pra − p a )
= f ( p a , pb , p c , p d ) + 
∂pra

 pv
 ∂f ( pra , prb , prc , prd ) 
 ∂f ( pra , prb , prc , prd ) 

 ( prb − pb ) + 
+ 
∂prc
∂prb
 pv

 pv

 ∂f ( pra , prb , prc , prd ) 
 ( prd − p d )
∗ ( prc − p c ) + 
∂prd
 pv

16
v
Efter insättning av partiella derivator för vektorn p = ( p a , pb , p c , p d ) och förenklingar av
Taylorutvecklingen för täljaren får man följande.
(5.5)
f ( pra , prb , prc , prd ) Taylor = p d pra − p c prb − pb prc + p a prd + pb pc − p a p d
Vi har nu fått en approximation av (5.4) via Taylorutvecklingen, som är matematiskt mycket
lättare att handskas med. Frågan är nu bara hur bra denna approximation är? Låt oss jämföra
vår approximation f ( pra , prb , prc , prd ) Taylor med f ( pra , prb , prc , prd ) i punkten
 868 352 612 72 
,
,
,

 . Dessa värden sätts in i uttrycket för täljaren, samt dess
 1904 1904 1904 1904 
approximation och följande resultat fås.
 868 352 612 72 
f
,
,
,
 = −0.042184521
 1904 1904 1904 1904 
 868 352 612 72 
= −0.042165488
,
,
,
f

 1904 1904 1904 1904  Taylor
Approximationen visar sig vara bra. Det motsvarande R-värdet är -0.22904 vilket ger ett lågt
 1136 31 58 679 
värde på r. Låt oss ta en annan punkt 
,
,
,
 , som ger ett högre r-värde.
 1904 1904 1904 1904 
Efter insättning i formler fås.
 1136 31 58 679 
f
,
,
,
 = 0.212275903
 1904 1904 1904 1904 
 1136 31 58 679 
f
,
,
,
= 0.212287489

 1904 1904 1904 1904  Taylor
Även denna punkt ger en bra approximation. Det motsvarande R-värdet här är 0.90250, vilket
ger ett högt värde på r. Vi kan fortsätta våra beräkningar av variansen för approximationen av
täljaren. Variansformeln för (5.5) ser ut på följande vis:
(5.6)
Var ( f Taylor )
2
2
2
2
= p d Var ( pra ) + p c Var ( prb ) + pb Var ( prc ) + p a Var ( prd )
− 2 p d pc Cov( pra , prb ) − 2 p d pb Cov( pra , prc ) + 2 p d p a Cov( pra , prd )
+ 2 p c pb Cov( prb , prc ) − 2 p c p a Cov( prb , prd ) − 2 pb p a Cov( prc , prd )
De fyra variablerna är binomialfördelade, n ⋅ pri ∈ Bin(n, pi ) och variansen för pri är därmed
pri (1 − pri )
. Eftersom summan av de fyra variablerna är n så kan kovariansen för två relativa
n
17
frekvenser skrivas som Cov( pri , pr j ) = −
pi p j
n
, ( i = a, b, c eller d ). Insättning av varianser
och kovarianser i (5.6) ger oss följande:
(5.7)
Var ( f Taylor )
= pd
+
2
(
p a (1 − p a )
2 p (1 − p b )
2 p (1 − p c )
2 p (1 − p d )
+ pa d
+ pc b
+ pb c
n
n
n
n
2
2
2
2
2
4 p a pb pc p d − p a p d − pb pc
n
)
Om vi räknar fram variansen med formel (5.7) för det f Taylor som gav ett lågt r-värde får man
Var ( f Taylor ) = 0.0000165332 som ger Std ( f Taylor ) = 0.0040661057 . Detta kan jämföras med
resultatet från en simuleringsmetod kallad bootstrap (se kap. 5.4.1), som ger
Std ( f Bootstrap ) = 0.0057351 . Låt oss nu göra samma sak för det f Taylor som gav ett högt r-värde.
Variansen som fås från (5.7) blir Var ( f Taylor ) = 0.0000118724 och dess standardavvikelse
Std ( f Taylor ) = 0.003445637 . Detta ska jämföras med standardavvikelsen från bootstrap-
simuleringen, Std ( f Taylor ) = 0.0033373 . Man kan se att (5.7) skattar variansen bättre för höga
r-värden och sämre får låga r-värden. Eftersom vi är intresserade av par av SNP:ar som ger
hög LD kan vi godta denna approximation tillsvidare.
^
På samma sätt genomfördes beräkningarna på kvoten för R . Som nämndes tidigare gjordes
^
en Taylorutveckling av R med hjälp av Maple och varians- och kovariansberäkningar gjordes
numeriskt i SAS. Resultatet, se formel (5.8), blev en allmän variansformel för R som ger en
bra approximation av variansen för höga r-värden, men sämre för låga r-värden.
^
(5.8) Var ( R Taylor )
2
2
2
2
= C a Var ( pra ) + C b Var ( prb ) + C c Var ( prc ) + C d Var ( prd )
+ 2C a C b Cov( pra , prb ) + 2C a C c Cov( pra , prc ) + 2C a C d Cov( pra , prd )
+ 2C b C c Cov( prb , prc ) + 2C b C d Cov ( prb , prd ) + 2C c C d Cov( prc , prd )
Här är C a , C b , C b och C d konstanter, se bilaga 3 för definitioner, och pra , prb , prc , prd de
relativa haplotypfrekvenserna i stickprovet.
^
(5.9) Var ( R Taylor )
18
p a (1 − p a )
2 p (1 − p b )
2 p (1 − p c )
2 p (1 − p d )
+ Cd d
+ Cb b
+ Cc c
n
n
n
n
pa pa
pa pc
pa pd
pb pc
− 2C a C b
− 2C a C c
− 2C a C d
− 2C b C c
n
n
n
n
pc pd
pb p d
− 2C b C d
− 2C c C d
n
n
= Ca
2
5.4. Simuleringsmetoder
5.4.1. Bootstrap
När man inte känner till fördelningen för en eller flera stokastiska variabler kan man med
hjälp av simulering kontrollera sina data. Vi använde oss av en simuleringsmetod kallad
bootstrap för att kontrollera hur bra approximationen av variansen (5.9) är. Bootstrapsimulering är en icke-parametrisk metod som är mycket användbar. Metoden går ut på att
man från sitt stickprov drar data med återläggning och skapar ett så kallat bootstrap-sampel.
Detta sampel har samma stickprovsstorlek som det ursprungliga stickprovet. Beräkningar av
estimat, som t. ex. medelvärde och standardavvikelse, utförs på det nya bootstrap-samplet
precis som på det ursprungliga. Man gör denna procedur ett antal gånger beroende på vad
man vill testa. Vi är intresserade av att approximera en varians, så vi skapade 1000 bootstrapsampel. Om man t. ex. ska approximera en låg precentil bör man minst ta tio gånger fler
bootstrap-sampel än vad vi gjorde.
5.4.1.1 Standardavvikelsen för bootstrap-estimatorn
^
iid
Givet statistikan θ ( X 1 , X 2 ,..., X n ) definierad symmetriskt i X 1 , X 2 ,..., X n ~ F , skrivs
^
standardavvikelsen för θ som
^


Std = σ  F , n, θ  = σ (F ) .


(5.10)
^
Den sista notationen visar att, givet stickprovsstorleken n och formen på statistikan θ (⋅,⋅,⋅,⋅) , så
är standardavvikelsen en funktion av den okända sannolikhetsfördelningen F . Bootstrap^
estimatet av standardavvikelsen är helt enkelt σ = (⋅) evaluerat för F = F ,
^
^
Std boot = σ  F  .
 
(5.11)
^
F är den icke-parametriska maximum likelihood-estimatorn av F .
^
5.4.1.2 Bootstrap-proceduren för att finna sampelfördelningen av θ
Vanligtvis kan inte funktionen σ (F ) skrivas ned explicit. För att kunna klara beräkningar av
^
Std är det nödvändigt att använda sig av en Monte Carlo-algoritm.
(1) Anpassa den icke-parametriska maximum likelihood-estimatorn av F ,
1
i = 1, 2,…n.
på xi ,
(5.12)
n
dvs. sannolikhetsmassan fördelas jämnt över observationerna.
^
F :mass
19
^
(2) Drag ett bootstrap-sampel från F ,
iid
X ∗1 , X ∗ 2 ,..., X ∗ n ~ F
(5.13)
^∗
och beräkna θ = θ (X ∗1 , X ∗ 2 ,..., X ∗ n ) .
^
(3) Upprepa steg 2 ett stort antal gånger, B, oberoende av varandra. Då fås följande
^ ∗1
^ ∗2
^ ∗B
bootstrap-replikat θ , θ ,..., θ
och bootstrap-estimatet av standardavvikelsen blir
2 1/ 2

B
^ ∗b
^ ∗⋅  

1


(5.14)
Std boot = 
∑
θ − θ   .
 
 B − 1 b =1 
^ ∗⋅
1 B ^ ∗b
Det som är betecknat med en punkt betyder: θ = ∑b =1θ .
B
^
Om man låter B → ∞ så kommer (5.14) att bli exakt lika med (5.10). I praktiken är det
begränsad datorkapacitet som avgör hur många bootstrap-sampel som kan genereras.
^ ∗⋅
θ kan även användas för att t. ex. bestämma ett icke-parametriskt konfidensintervall för θ .
5.4.2. Jackknife
Vi använde oss av ytterligare en simuleringsmetod kallad jackknife, som även den är en ickeparametrisk metod. Jackknife introducerades av Maurice Quenouille i slutet av 1940-talet och
var den första datorbaserade metoden för att estimera bias på standardavvikelser. Inte förrän
många år senare, 1979, skulle bootstrap-metoden introduceras.
Jackknife-metoden går till så att man skapar n st nya stickprov med stickprovsstorleken n-1,
så kallade jackknife-sampel, från sitt ursprungliga stickprov med stickprovstorlek n. Första
steget är att utelämna den första observationen i stickprovet, vilket ger det första jackknifesamplet x(1) . Steg två är att utelämna den andra observationen i stickprovet och då fås
jackknife-samplet x( 2) . Denna procedur görs n gånger och då har alla observationer blivit
utelämnade varsin gång. Beräkningar av estimat, som t. ex. medelvärde och
standardavvikelse, utförs på de nya samplen precis som på det ursprungliga stickprovet.
Vår studiepopulation består av 952 personer, vilket ger oss 952 st jackknife-sampel. Det är
nästan lika många sampel som bootstrap-metoden gav (1000 sampel). Skillnaden är att
jackknife-metoden har en begränsning när det gäller antalet sampel. Antalet observationer
bestämmer antalet jackknife-sampel, medans bootstrap-metoden kan teoretiskt sett ge oändligt
många sampel.
20
5.4.2.1 Standardavvikelsen för jackknife-estimatorn
^
Antag att vi har ett stickprov x = ( x1 , x 2 ,..., x n ) och en estimator θ = s (x). Vi vill estimera
^
standardavvikelsen för θ . Jackknife riktar fokus på de stickprov som bortser från en
observation varje gång:
x( i ) = ( x1 , x 2 ,..., xi −1 , xi +1 ,..., x n ) ,
(5.15)
där i = 1, 2, … , n. Här är x(i ) ett så kallat jackknife-sampel. Det i:te jackknife-samplet består
av ett data-set där den i:te observationen är borttagen.
^
^
Låt θ ( i ) = s (x(i)) vara det i:te jackknife-replikatet av θ . Jackknife-estimatorns
standardavvikelse definieras då som
(5.16)
^
där θ (.) =
^
 n −1 n ^
2
=
(
θ
−
θ
i
(
)
(.) ) 
∑
 n i =1

^
Std jack
1/ 2
,
1 n ^
∑ θ (i ) .
n i =1
5.4.3. Jämförelser mellan bootstrap och jackknife
^
Vilken metod är bäst? Eftersom det endast krävs n st jackknife-stickprov för att beräkna θ
kan man tycka att jackknife-metoden är enklare om, låt oss säga, n är mindre än de 100 eller
200 replikat som dras enligt bootstrap-metoden. Genom att endast titta på de n stickproven
^
jackknife-metoden ger, ser jackknife ut att ge en begränsad information om statistikan θ ,
vilket i sin tur leder till att man kan tro att bootstrap är mer effektiv än jackknife. Det visar sig
att jackknife-metoden kan ses som en approximation av bootstrap-metoden. Här är essensen
bakom denna ide.
Låt oss antaga att vi har en linjär statistika, dvs. en statistika som kan skrivas som
^
θ = s ( x) = µ +
(5.17)
1 n
∑ α ( xi ) ,
n i =1
där µ är en konstant och α (⋅) är en funktion. Medelvärdet är det enklaste exemplet på en
linjär statistika där µ = 0 och α ( xi ) = xi . För en sådan statistika visar det sig att jackknifeoch bootstrap-estimatet av standardavvikelsen nästan är detsamma bortsett en faktor,
^
_
{(n − 1) / n}1 / 2 , som finns hos jackknife-estimatet. Detta är vad vi exakt fann för θ = x :
1/ 2
Std jack
_
n

= ∑ ( xi − x) 2 {(n − 1) / n}
 i =1

Std boot
_
n

= ∑ ( xi − x) 2 
 i =1

1/ 2
21
För icke-linjära statistikor går dock information förlorad när jackknife tillämpas. Jackknife
gör en linjär approximation av bootstrap-estimatet, dvs. den ger samma resultat som
1/ 2
bootstrap, förutom faktorn {(n − 1) / n} ), för en viss form av linjär statistika (5.17) som
^
approximerar θ . Det visar sig att noggrannheten för jackknife-estimat är beroende av hur
^
linjär θ är. För klart icke-linjära funktioner kan jackknife-metoden vara ineffektiv, rent av
dålig. Jackknife är även väldigt känslig för om datamängden inte är ”smooth”, dvs. små
förändringar i data kan ge stora förändringar i statistikan.
5.4.4. Bootstrap- och jackknife-simuleringarna
De 1000 bootstrap-samplen skapades med hjälp av SAS. I varje bootstrap-sampel räknades rvärdet fram för varje SNP-kombination, dvs. för SNP i och SNP j, i ≠ j , erhölls 1000 rvärden. Bootstrap-estimatet av rij för graden av LD mellan SNP i och j är medelvärdet av rvärdena från de 1000 bootstrap-samplen
*.
rij =
1 B *b
∑ rij
B b =1
och standardavvikelsen för bootstrap-estimaten ges av
[
 1 B *b
*.
Std boot (rij ) = 
rij − rij
∑
 B − 1 b =1
*
]
2



1/ 2
.
I vårt fall blev jackknife-simuleringen enkel, eftersom vi endast har fyra olika grupper av
individer som har samma typ av haplotyper. För individer inom samma grupp är definitionen
av jackknife-estimatet densamma, jämfört med normalfallet då varje individ har ett eget
definierat jackknife-estimat. Detta är anledningen till att simuleringen blev enklare i vårt fall.
Bokstäver a, b, c och d symboliserar de fyra möjliga haplotyperna och i och j står för SNPkombinationen, dvs. SNP i och SNP j där i ≠ j . Dessa togs bort på följande vis,
Rija =
Rijb =
Rijc =
Rijd =
22
(a − 1)d − bc
((a − 1) + b)((a − 1) + c)(b + d )(c + d )
ad − (b − 1)c
(a + (b − 1))(a + c)((b − 1) + d )(c + d )
ad − b(c − 1)
(a + b)(a + (c − 1))(b + d )((c − 1) + d )
a(d − 1) − bc
(a + b)(a + c)(b + (d − 1))(c + (d − 1))
Detta ger rija = abs( Rija ) , rijb = abs( Rijb ) , rijc = abs( Rijc ) och rijd = abs ( Rijd ) , som är
jackknife-estimaten för de fyra olika haplotyp-grupperna. Dessa r vägdes sedan ihop till
rijw =
arija + brijb + crijc + drijd
(a + b + c + d )
.
Jackknife-estimatens standardavvikelse har följande form
n −1

Std jack (rij ) = 
a(rija − rijw ) 2 + b(rijb − rijw ) 2 + c(rijc − rijw ) 2 + d (rijd − rijw ) 2 
 n

(
)
1/ 2
.
23
6. Resultat
6.1. De 10 LD-måtten och deras standardavvikelser enligt Gaussapproximationen
I SAS utfördes numeriska beräkningar på det datamaterial som presenterades i kapitel 4, se
tabell 7. För beräkningar av LD användes ρ ,
^
ρ = abs( R) och r = abs( R)
där
^
R = ( pra prd − prb prc ) /(( pra + prb )( pra + prc )( prb + prd )( prc + prd ))1 / 2
och för beräkningar av standardavvikelser användes
Std (r ) =
(6.1)
2

 2σ 2
 
^
 1  R 2 




R
R




2
Var ( R ) + R − 
exp −    + R Φ  −  Φ −    
 2 σ  

 π
  σ    σ    



1/ 2
^
där Var ( R) är den allmänna variansformeln som härleddes i kapitel 5.3 med hjälp av Gaussapproximationsformler,
^
Var ( R)
2
2
2
2
≈ C a Var ( pra ) + C b Var ( prb ) + C c Var ( prc ) + C d Var ( prd )
+ 2C a C b Cov( pra , prb ) + 2C a C c Cov( pra , prc ) + 2C a C d Cov( pra , prd )
+ 2C b C c Cov( prb , prc ) + 2C b C d Cov( prb , prd ) + 2C c C d Cov( prc , prd ) .
Tabell 8 nedan visar resultatet för det stickprov där alla 952 personerna togs med.
Tabell 8.
SNP nr
r
Std(r)
2-3
2-4
2-8
2-9
3-4
3-8
3-9
4-8
4-9
8-9
0.99653
0.58144
0.53939
0.22904
0.58346
0.54141
0.23056
0.90250
0.04835
0.00238
0.00199
0.00963
0.01003
0.01161
0.00965
0.01004
0.01160
0.00934
0.01020
0.00608
Tabell 9 visar resultaten för de tre mindre stickproven, där stickprovsstorlekarna är 50, 100
respektive 150 personer.
Tabell 9.
SNP nr
r_50
Std(r_50)
r_100
Std(r_100)
r_150
Std(r_150)
24
2-4
2-8
2-9
3-4
3-8
3-9
4-8
4-9
8-9
1.0000
2-3
0.53595
0.52475
0.36633
0.53595
0.52475
0.36633
0.85239
0.05018
0.11064
0.0000
0.04031
0.03977
0.03322
0.04031
0.03977
0.03322
0.04710
0.03402
0.03798
1.0000
0.54655
0.52414
0.33123
0.54655
0.52414
0.33123
0.87528
0.02037
0.04110
0.0000
0.02893
0.02815
0.02280
0.02893
0.02815
0.02280
0.03127
0.02196
0.02711
1.0000
0.53082
0.50486
0.28395
0.53082
0.50486
0.28395
0.88129
0.00017
0.00605
0.0000
0.02322
0.02373
0.02555
0.02322
0.02373
0.02555
0.02521
0.01515
0.01583
För att lättare kunna se skillnaderna mellan de 10 LD-måtten gjordes ett diagram över alla
stickprovsstorlekar och LD-mått.
Diagram 1: De fyra stickprovsstorlekarna och deras r-värden
för de tio LD-måtten
1,2
1,0
0,8
r
n = 952
n = 150
0,6
n = 100
n = 50
0,4
0,2
0,0
SNP SNP SNP SNP SNP SNP SNP SNP SNP SNP
2-3 2-4 2-8 2-9 3-4 3-8 3-9 4-8 4-9 8-9
De tio LD-måtten
Diagram 1 visar den variation som förekommer mellan stickprovsstorlekarna.
Diagram 2: Standardavvikelserna för Gauss-approximationen
för de fyra stickprovsstorlekarna
vs r-värdet
0,050
0,045
0,040
0,035
n =952
Std
0,030
n = 150
0,025
n = 100
0,020
n = 50
0,015
0,010
0,005
0,000
0,00
0,20
0,40
0,60
0,80
1,00
1,20
r
Den framtagna Gauss-approximationen av standardavvikelsen för rij visas för de fyra
stickprovsstorlekarna i diagrammet ovan. Nästa steg är att bestämma vilken standardavvikelse
som passar bäst till våra r-värden.
25
6.1.1. Resultat av bootstrap- och jackknife-simuleringarna
Numeriska beräkningar utfördes i SAS på de 1000 bootstrap-samplen och följande resultat för
stickprovet med 952 personer erhölls.
Tabell 10:
SNP nr
2-3
0.99660
rboot
Std(rboot) 0.00195
2-4
2-8
2-9
3-4
3-8
3-9
4-8
4-9
8-9
0.58177
0.54003
0.22865
0.58376
0.54198
0.23017
0.90258
0.04840
0.02371
0.01272
0.01469
0.02797
0.01272
0.01473
0.02792
0.01010
0.02612
0.01735
För de mindre stickproven, n = 50, 100 respektive 150, blev resultatet följande.
Tabell 11:
SNP nr
rboot 50
Std(rboot)50
rboot 100
Std(rboot)100
rboot 150
Std(rboot)150
2-3
2-4
2-8
2-9
3-4
3-8
3-9
4-8
4-9
8-9
1.0000
0.53817
0.52520
0.35836
0.53817
0.52520
0.35836
0.85261
0.10998
0.13811
0.0000
0.05952
0.05387
0.06631
0.05952
0.05387
0.06631
0.05222
0.08025
0.09463
1.0000
0.54538
0.52287
0.32837
0.54538
0.52287
0.32837
0.87602
0.07330
0.07214
0.0000
0.04010
0.03785
0.04496
0.04010
0.03785
0.04496
0.03369
0.05445
0.05523
1.0000
0.52965
0.49989
0.28559
0.52965
0.49989
0.28559
0.88033
0.06163
0.06387
0.0000
0.03330
0.03543
0.06304
0.03330
0.03543
0.06304
0.02623
0.04345
0.04741
Diagram 3 visar skillnaderna mellan de fyra stickprovsstorlekarnas standardavvikelser.
Diagram 3: Bootstrap-standardavvikelserna för de fyra
stickprovsstorlekarna vs r-värdet
0,10
0,09
0,08
0,07
n=952
Std
0,06
n=150
0,05
n=100
0,04
n=50
0,03
0,02
0,01
0,00
0,00
0,20
0,40
0,60
0,80
1,00
1,20
r
Som väntat är standardavvikelsen för den största stickprovsstorleken minst och kurvan är
jämnare än för de mindre stickprovstorlekarna.
Låt oss nu titta på resultaten av jackknife-simuleringarna. Numeriska beräkningar i SAS gav
följande resultat för stickprovet med 952 personer,
Tabell 12:
SNP nr
2-3
0.99653
rjack
Std(rjack) 0.00200
26
2-4
2-8
2-9
3-4
3-8
3-9
4-8
4-9
8-9
0.58144
0.53939
0.22904
0.58346
0.54141
0.23056
0.90250
0.04835
0.00238
0.01267
0.01396
0.01861
0.01268
0.01396
0.01860
0.01014
0.02254
0.02297
För de mindre stickproven blev resultatet följande.
Tabell 13:
SNP nr
rjack 50
Std(rjack)50
rjack 100
Std(rjack)100
rjack 150
Std(rjack)150
2-3
2-4
2-8
2-9
3-4
3-8
3-9
4-8
4-9
8-9
1.0000
0.53595
0.52475
0.36633
0.53595
0.52475
0.36633
0.85239
0.05018
0.11064
0.0000
0.05508
0.05469
0.04747
0.05508
0.05469
0.04747
0.05464
0.10369
0.10462
1.0000
0.54655
0.52414
0.33123
0.54655
0.52414
0.33123
0.87528
0.02037
0.04110
0.0000
0.03903
0.03848
0.03199
0.03903
0.03848
0.03199
0.03499
0.07207
0.07257
1.0000
0.53082
0.50486
0.28395
0.53082
0.50486
0.28395
0.88129
0.00017
0.00605
0.0000
0.03154
0.03315
0.03602
0.03154
0.03315
0.03602
0.02807
0.03586
0.05813
Om man jämför resultaten för jackknife-estimaten med resultaten från beräkningarna på våra
ursprungliga stickprov ser man att dessa ger samma r-värdena, men olika standardavvikelser.
Det är inte oväntat, eftersom de jackknife-sampel vi får vid simuleringen nästan är identiska
*
med det ursprungliga stickprovet, till skillnad mot bootstrap-estimatet rij , som skiljer sig en
aning från det rij som fås från beräkningar på det ursprungliga stickprovet. Det som just nu är
av intresse är standardavvikelserna och inte r-värdena. Diagram 4 visar hur jackknifestandardavvikelserna ser ut mellan de fyra stickprovsstorlekarna.
Diagram 4: Jackknife-standardavvikelserna för de fyra
stickprovsstorlekarna vs r-värdet
0,12
0,10
Std
0,08
n=952
n=150
0,06
n=100
n=50
0,04
0,02
0,00
0,00
0,20
0,40
0,60
0,80
1,00
1,20
r
Nu har vi fått fram två stycken standardavvikelser genom att använda två olika simuleringsmetoder. Dessa kan vi nu jämföra med varandra och med Gauss-approximationen av
standardavvikelsen för rij , se (6.1).
6.1.2. Jämförelser mellan de tre olika standardavvikelserna
Om man nu resonerar så att bootstrap ger det ”sanna” värdet på standardavvikelsen för rij , ser
man att vår formel för standardavvikelsen, som i diagrammen nedan kallas för Gauss, skattar
27
standardavvikelsen dåligt för låga r-värden och bra för höga r-värden. Med höga r-värden
menas rij > 0.80. Diagram 5 visar skillnaderna för den största stickprovsstorleken och diagram
6 visar skillnaderna för den minsta stickprovsstorleken.
Diagram 5: De tre standardavvikelserna vs r-värdet (n = 952)
0,030
0,025
0,020
Std
Gauss
0,015
Bootstrap
Jackknife
0,010
0,005
0,000
0,00
0,20
0,40
0,60
0,80
1,00
1,20
r
Skillnaderna mellan standardavvikelserna för de båda simuleringsmetoderna minskar när r
närmar sig 1.0.
Diagram 6: De tre standardavvikelserna vs r-värdet (n = 50)
0,12
0,10
0,08
Std
Gauss
0,06
Bootstrap
Jackknife
0,04
0,02
0,00
0,00
0,20
0,40
0,60
0,80
1,00
1,20
r
För höga r-värden är skillnaderna mellan de tre standardavvikelserna i diagram 5 och diagram
6 i stort sett desamma. Detta är bra för oss, eftersom vi är intresserade av höga värden på r.
Låt oss titta närmare på de tre högsta LD-måtten. De tre SNP:ar som ger de största LD-måtten
är SNP:arna 2 och 3, 3 och 4, samt 4 och 8. Nedan i tabell 14 är resultaten för dessa SNP:ar
för stickprovsstorleken n = 952 sammanfattade.
28
Tabell 14: Resultaten för de tre par av SNP:ar som ger högst LD (n=952)
SNP nr
2-3
3-4
4-8
r
0.99653
0.58346
0.90250
r-bootstrap
0.99660
0.58376
0.90258
r-jackknife
0.99653
0.58346
0.90250
Std-Gauss
0.00199
0.00965
0.00934
Std-bootstrap
0.00195
0.01272
0.01010
Std-jackknife
0.00200
0.01268
0.01014
Vi är intresserade av att beräkna den nedre gränsen i ett 95 % konfidensintervall till våra
estimerade r-värden. Vi har i kapitlet innan fått fram tre olika formler för standardavvikelsen
till rij . Vi ska nu bedöma vilken som är bäst lämpad för vårt problem.
Med hjälp av bootstrap-simuleringen fick vi 1000 bootstrap-sampel för varje LD-mått inom
varje stickprovsstorlek. För att få en uppfattning om hur bootstrap-sampelfördelningen ser ut
för ett visst LD-mått kan man titta på histogrammet för rij över de 1000 bootstrap-samplen.
FREQ
UENCY
1000
900
800
700
600
FREQ
UENCY
190
FREQ
UENCY
190
180
180
170
170
160
160
150
150
140
140
130
130
120
120
110
110
100
100
90
90
80
80
70
70
500
400
60
60
300
50
50
40
40
200
30
30
20
20
100
10
10
0
0
0
1
0. 375 0. 400 0. 425 0. 450 0. 475 0. 500 0. 525 0. 550 0. 575 0. 600 0. 625 0. 650 0. 675 0. 700 0. 725
0. 613 0. 638 0. 663 0. 688 0. 713 0. 738 0. 763 0. 788 0. 813 0. 838 0. 863 0. 888 0. 913 0. 938 0. 963 0. 988
r _48 M
I DPO
I NT
r _34 M
I DPO
I NT
r _23 M
I DPO
I NT
Histogrammen som visas ovan är för följande LD-mått, SNP 2-3, SNP 3-4 och SNP 4-8 i
ordning från vänster. Stickprovsstorleken, n = 50 personer, är densamma för alla
histogrammen.
Nedan visas histogrammen för samma LD-mått, men med stickprovsstorlek n = 100 personer.
FREQ
UENCY
1000
900
FREQ
UENCY
200
FREQ
UENCY
190
190
180
180
170
170
160
160
800
150
150
140
140
700
130
130
120
120
600
110
110
100
100
500
90
90
80
80
400
70
70
60
60
300
50
50
40
40
200
30
30
20
20
100
10
10
0
0
0
0. 43 0. 45 0. 47 0. 49 0. 51 0. 53 0. 55 0. 57 0. 59 0. 61 0. 63 0. 65 0. 67 0. 69
0. 758 0. 773 0. 788 0. 803 0. 818 0. 833 0. 848 0. 863 0. 878 0. 893 0. 908 0. 923 0. 938 0. 953 0. 968
r _34 M
I DPO
I NT
r _48 M
I DPO
I NT
1
r _23 M
I DPO
I NT
Fyra av de sex histogrammen liknar en normalfördelning, så man skulle kunna beräkna de
enkelsidiga 95 % konfidensintervallen med hjälp av normalfördelningskvantilen 1.64. Alla
bootstrap-sampelfördelningar liknar dock inte normalfördelningen, se t ex. histogrammen för
r23 . Detta par av SNP:ar har mycket hög LD. Bootstrap-metoden ger för det största
29
stickprovet r23 = 0.99660 och för de tre mindre stickproven r23 = 1.0 . Beräkningar på de
ursprungliga stickproven och jackknife-samplen ger samma resultat förutom för det största
stickprovet då r23 = 0.99653 . För en sådan SNP-kombination vars r-värde ligger mycket nära
eller antar 1.0, är fortsatta beräkningar av standardavvikelsen oftast ointressanta, eftersom det
inte existerar någon variation om rij = 1.0 .
Därför utesluter vi inte normalfördelningskvantilen i våra fortsatta beräkningar av den nedre
gränsen till det 95 % konfidensintervallet för rij .
Det skulle även vara önskvärt att använda jackknife-standardavvikelser vid beräkningarna av
den nedre gränsen, eftersom den simuleringsmetoden är programmeringsmässigt lättare och
effektivare än bootstrap-simuleringen. För att få en uppfattning om man kan använda sig av
jackknife-standardavvikelsen och normalfördelningskvantilen 1.64 vid beräkning av den
nedre gränsen, trots att bootstrap-sampelfördelningen för rij inte alltid är normalfördelad. Vi
jämför därvid resultatet vi får av våra beräkningar med den femte percentilen i motsvarande
bootstrap-sampelfördelning. Tabellerna nedan visar dessa jämförelser för de tre minsta
stickprovsstorlekarna. Det är ingen idé att göra detta för SNP 2-3 eftersom r23 = 1.0 , dvs. det
existerar inte någon variation.
Tabell 15: SNP 3-4
Stickprovsstorlek
50
100
150
Tabell 16: SNP 4-8
Stickprovsstorlek
50
100
150
Nedre gräns beräknad m.h.a
jackknife-std och 1.64
0.4478
0.4814
0.4791
Nedre gräns beräknad m.h.a
jackknife-std och 1.64
0.7630
0.8186
0.8353
Bootstrapfördelningens
5:e percentil
0.4485
0.4791
0.4765
Bootstrapfördelningens
5:e percentil
0.7676
0.8187
0.8378
Av dessa resultat att döma kan man använda sig av jackknife-standardavvikelsen och
normalfördelningenskvantilen 1.64 vid beräkningarna av den nedre gränsen för rij , eftersom
skillnaderna mellan den femte percentilen i bootstrap-fördelningen och den nedre gränsen är
små.
6.2. Vid vilket n kan man överväga att endast genotypa en SNP?
Man vill gärna på ett tidigt stadium, t ex. efter att ha genotypat 30 personer, kunna finna par
av SNP:ar som har höga r-värden, så man kan bortse från en av SNP:arna i den fortsatta
genotypningen, om man finner det lämpligt. Via en enkel grafisk lösning till problemet får vi
ett snabbt svar på den frågan. (Se diagram 8).
Den nedre gräns för rij som avgör när det är onödigt att fortsätta genotypa båda SNP:arna i ett
par av SNP:ar kallar vi för d. För de par av SNP:ar vars nedre gräns överstiger eller är lika
30
med d, dvs. rij − 1.64 * Std jack (rij ) ≥ d , kan man bortse från en av de två SNP:arna i
fortsättningen. Som vi har visat ovan kan den nedre gränsen i det 95 % konfidensintervallet
för rij beräknas med hjälp av rij − 1.64 * Std jack (rij ) . Vi har satt d = 0.80, vilket ger oss
följande.
rij − 1.64 * Std jack (rij ) = 0.80
Vårt uttryck för jackknife-standardavvikelsen kan skrivas om till Std jack (rij ) = k
n , där k är
en konstant och n antalet personer i studien. Vi har alltså en funktion för jackknifestandardavvikelsen som beror av n. En regressionsanalys gjordes för att skatta konstanten k.
(Se bilaga 4.)
En brytpunkt c för rij kan räknas fram med avseende på d = 0.80. Om rij antar ett högre värde
eller är lika med denna brytpunkt kan man överväga att bortse från en SNP i det paret vid den
fortsatta genotypningen.
rij ≥ 0.80 + 1.64 * k
n =c
En graf över c-värdena gjordes med data hämtade för de fyra stickprovsstorlekarna n = 50,
100, 150 respektive 952 för ett par av SNP:ar som gav ett högt LD-mått ( r48 = 0.90 ) och för
ett par av SNP:ar som gav ett lågt LD-mått ( r34 = 0.58 ). Dessa jämfördes sedan för att se om
hög eller låg LD gav någon märkbar skillnad på c-värdena. Resultatet visas i diagrammet
nedan.
Diagram 7: Graf över brytpunkten c för hög och låg LD vs
antalet personer
1,00
0,95
hög LD
0,90
r
låg LD
0,85
0,80
0,75
0
200
400
600
800
1000
antal personer
Här kan man se att det inte finns någon avgörande skillnad för c mellan hög och låg LD. För
att få en bättre graf för c genererades 1000 standardavvikelser i SAS (se bilaga 5) med hjälp
av formeln Std jack (rij ) = k n . Detta resulterade i en jämnare graf över c. Se diagram 8.
31
r
Diagram 8: Förfinad graf för brytpunkten c vs antalet
personer
0,93
0,92
0,91
0,90
0,89
0,88
0,87
0,86
0,85
0,84
0,83
0
50
100
150
200
250
300
350
antal personer
Detta diagram ger snabbt och enkelt ett svar på om man kan överväga att bortse från en SNP i
ett par av SNP:ar i den fortsatta genotypningen. Det är bara att läsa av kurvan för c för ett
givet n och se om r-värdena ligger över eller under kurvan. Ligger r-värdet över eller exakt på
kurvan för c kan man, om man finner det lämpligt, bortse från en av SNP:arna vid den
fortsatta genotypningen.
32
7. Diskussion
Som nämndes tidigare i kapitel 5.4.3 kan jackknife-metoden vara mindre lämplig att tillämpa
på icke-linjära statistikor. Det kopplingsmått vi har valt att beräkna LD med är en kvot med
fyra variabler. Trots detta visar det sig att jackknife-metoden ger minst lika bra skattning av
^
standardavvikelsen som bootstrap-metoden. Kanske är det så att uttrycket för R är
någorlunda linjärt i de områden vi är intresserade av, dvs. värden nära 1 och –1.
Anledningen till att vi har valt att använda jackknife-standardavvikelsen i våra beräkningar av
de enkelsidiga 95 % konfidensintervallen är att jackknife-metoden, i vårt fall, ger så pass
enkla beräkningar, vilket medför att den är programmeringsmässigt effektivare än bootstrapmetoden.
Diagram 8 i slutet av kapitel 6.2 bör användas med en viss försiktighet. De konfidensintervall
vi beräknar är till 95 % säkra, så det finns 5 % risk att få med par av SNP:ar som inte har
tillräcklig hög LD om man testar ett stort antal par av SNP:ar.
Det finns även en risk att styrkan i testen sänks om man testar sina par av SNP:ar vid för
många olika stickprovsstorlekar. Man bör använda sig av sekventiella test om man vill testa
vid olika stickprovsstorlekar för att få korrekt resultat.
Ett problem som vi stötte på under arbetets gång var att det inte finns någon given
^
variansformel till LD-måttet R . Den variansformel som är angiven på sidan 15, sats 5.1,
gäller vid oberoende, men ordet oberoende betyder inte här det vi i vanliga fall menar med
^
oberoende, ty då skulle R vara lika med 0 och inte förekomma i variansuttryckt för R . Här
förekommer ett annat oberoendebegrepp, där man i stället för oberoende borde välja att
^
använda sig av ett lämpligare uttryck som inget samband. Om R har observerats till 0 säger
man att inget samband råder, men det behöver inte betyda att R = 0 dvs. att vi har stokastiskt
oberoende. Slutsatsen av detta blir att vi kan säga att variansformeln gäller för små värden på
^
ρ . Vi kunde inte nöja oss med detta utan behövde en allmän variansformel till R , som kunde
ge oss en god skattning av variansen för höga värden på ρ . I kapitel 5.3 härleder vi en
^
^
variansformel till R med hjälp av Taylorutveckling av R och Gauss-approximationsformel
för variansen. Denna variansformel (5.9) visar sig vara bäst lämpad för höga ρ , som i vårt
fall var önskvärt.
I detta examensarbete har vi studerat LD mellan par av SNP:ar. En fortsättning på detta arbete
skulle vara att studera LD mellan ett större antal SNP:ar, t ex. tre och tre eller fyra och fyra.
Antalet haplotyper ökar då fler SNP:ar tillkommer, t. ex. studerar man SNP:ar tre och tre ger
det 8 stycken möjliga haplotyper. Detta ger mer avancerade beräkningar än de som har visats i
detta examensarbete.
Det kan i vissa fall hända att en haplotyp inte förekommer i en population för att den är så
ovanlig. Så är även fallet i vår studiepopulation. I kapitel 4, tabell 7, kan man se att för tre par
av SNP:ar är en av de fyra möjliga haplotyperna inte observerad i studiepopulationen.
33
8. Referenser
[1]
Blume, Lawrence, David Easley, and Maureen O’Hara, Market statistics and technical
analysis: the role of volume, Journal of Finance, XLIX, (1994), No.1, p. 153-181.
[2]
Efron Bradley, The Jackknife, the Bootstrap and Other Resampling Plans, Society for
Industrial and Applied Mathematics: Bristol, (1985)
[3]
Efron Bradley, Tibshirani Robert J., An Introduction to the Bootstrap, Chapman &
Hall: New York, (1993)
[4]
Griffiths Anthony J. F., Lewontin Richard C., Miller Jeffrey H. & Suzuki David T., An
Introduction To Genetic Analysis, third edition, W. H. Freeman and Company: New
York, (1986)
[5]
Kendall & Stuart, The Advanced Theory of Statistics, fourth edition, Vol 2, Charles
Griffin & Company Limited: London, (1979), p. 569-671.
[6]
Read Andrew P. & Strachan Tom, (1999), Human Molecular Genetics 2, second
edition.
[7]
Zethelius Björn, Proinsulin and Insulin Sensitivity as Predictors of Type 2 Diabetes
Mellitus and Coronary Heart Disease, Uppsala Universitet: Uppsala, (2003)
[8]
Darvasi Ariel, Kokoris Mark, Kuypers Jane & Shifman Sagiv, Linkage Disequilibrium
Patterns of the Human Genome Across Populations, Human Molecular Genetics 2003,
Vol. 12, No 7.
[9]
Dawson Elisabeth & Abecasis Gonçalo R. et al., A First-Generation Linkage
Disequilibrium Map of Human Chromosome 22, Nature 2002, Vol 418, No 6897, p.
465-568.
[10]
Excoffier Laurent & Slatkin Montgomery, Maximum-Likelihood Estimation of
Molecular Haplotype Frequencies in a Diploid Population, Mol. Biol. Evol. 1995,
12(5):921-927.
[11]
Jorde L.B., Linkage Disequilibrium and the Search for Complex Disease Genes,
Genome Research 2000, Vol 10, Issue 10.
[12]
Pritchard Jonathan K. & Przeworski Molly, Linkage Disequilibrium in Humans:
Models and Data, American Journal of Human Genetics 2001, 69:1-14.
[13]
http://genomics.phrma.org/lexicon/l.html 2003-03-20
[14]
http://www.wikipedia.org 2003-08-06
[15]
http://www.accessexcellence.org/AB/GG/meiosis.html 2003-10-08
[16]
http://las.perkinelmer.com/content/snps/genotyping.asp 2003-10-08
34
[17]
http://www.hyperdictionary.com/dictionary 2003-10-14
[18]
http://helios.bto.ed.ac.uk/bto/glossary/ 2003-10-08
[19]
http://www.ncbi.nlm.nih.gov/About/primer/snps.html 2003-04-20
[20]
http://www.pubcare.uu.se/ULSAM/ 2003-10-16
[21]
http://www.mapleapps.com/ 2003-10-20
[22]
http://www.sas.com 2003-10-20
35
9. Genetisk ordlista
adenin: Se bas.
allel: En av flera olika former av en gen. Varje person ärver två alleler till varje gen, en allel
från varje förälder. Dessa alleler kan vara likadana eller skilja sig från varandra. [12]
association: I genetiska studier där man studerar härkomst hos människan och i
sambandsstudier förekommer ofta jämförelser av allelfrekvenser för ett marker-locus mellan
en sjukdomspopulation och en kontrollpopulation. När statistiskt signifikanta skillnader
mellan frekvenserna för en eller flera alleler uppträder mellan en kontroll- och
sjukdomspopulation, säger man att sjukdomen och allelen eller allelerna är i association med
varandra. [12]
autosom: Varje kromosom som inte är inblandad i bestämmandet av vilket kön organismen
ska ha. Människan har 22 par av autosomer i varje cell. [12]
bas: En av molekylerna - adenin, guanin, cytosin, tymin eller uracil - vilka formar delar av
strukturen för DNA- och RNA-molekylen. Ordningen av baser i en DNA-molekyl bestämmer
strukturen hos proteinet som DNA:t kodar för. [12]
baspar (bp): Två kompletterande nukleotidbaser som är sammansatta av en kemisk
bindning. Dessa två slingor av DNA-molekylen hålls ihop med hjälp av basparen och är
formad som en dubbel spiral. Basen adenin bildar par med tymin och cytosin bildar par med
guanin. [12]
centromer: Den ihopsnörda delen nära mitten av en mänsklig kromosom. I denna del
förenas de båda syster-kromatiderna. Se kromatid. [17]
cytosin: Se bas.
di-allelt locus: Ett locus med två alleler, dvs. det finns två varianter av ett locus som skiljer
sig på något sätt, t.ex. en polymorfi som en SNP.
diploid: En fullständig uppsättning av genetiskt material, som innehåller par av kromosomer
från varje förälder. De flesta djurs celler bortsett från könscellerna har en diploid uppsättning
kromosomer. Det mänskliga genomet har 46 kromosomer. Jämför med haploid. [12]
DNA (deoxyribonucleic acid): Molekyl som innehåller genetisk information. DNA är en
dubbelslingad spiral sammanhållen av bindningar mellan par av nukleotider. Se bas och
baspar. [12]
dominant allel: En allel, vid ett bestämt locus, som kommer att forma eller påverka
fenotypen av en organism oavsett karaktären på den andra allelen vid locuset. Till exempel är
allelen för brun ögonfärg dominant gentemot allelen för blå ögonfärg, så en person som ärver
allelen för blå ögonfärg från en förälder och en allel för brun ögonfärg från den andra
föräldern kommer nästan alltid ha bruna ögon. Se genetiskt uttryck och jämför med recessiv
allel. [12]
36
fenotyp: En uppsättning av observerade fysikaliska karaktärer hos en individuell organism.
En enskild karaktär kan refereras till som en ”egenskap”, även om en enskild egenskap ibland
också kan kallas för en fenotyp. Till exempel kan blont hår kallas för egenskap men också
fenotyp, vilket även fetma kan. En fenotyp kan vara resultatet av många faktorer, inkluderat
en individs genotyp, omgivning och livsstil, samt samspel mellan dessa faktorer, dvs. det
observerade uttrycket för en genotyp. Fenotypen kan både uttryckas fysikaliskt, biokemiskt
och fysiologiskt. [12]
gen: En bit DNA som kodar för ett speciellt protein, eller i vissa fall en funktionell eller
strukturell RNA-molekyl. [12]
genetisk kartläggning: En karta över ett genom vilken visar de relativa positionerna av
generna och/eller markörerna på kromosomerna. [12]
genetisk polymorfism: En skillnad i DNA-sekvens bland individer, grupper eller
populationer (t. ex. en genetisk polymorfism kan ge upphov till blå ögon kontra bruna ögon
eller rakt hår kontra lockigt hår). Genetisk polymorfism kan vara ett resultat av en ändringsprocess eller kan ha orsakats av andra yttre faktorer såsom virus eller strålning. Om det visar
sig att en skillnad i en DNA-sekvens bland individer kan associeras med en sjukdom, kallas
den vanligtvis för mutation. Variationer i DNA-sekvenser som man vet har uppstått genom
påverkan från yttre faktorer kallas generellt för mutationer istället för polymorfier. [12]
genetiskt uttryck: Processen som konverterar en gens kodade information till befintliga och
opererande strukturer i en cell. Uttryckta gener inkluderar de som är kopierade till mRNA och
sedan översatta till protein och de som är kopierade till RNA men inte översätta till protein.
[16]
genom: Allt genetiskt material i kromosomerna av en speciell organism. Dess storlek är
generellt angiven som det totala antalet baspar. [12]
genotyp: Det speciella genetiska mönster som ses i en persons DNA. En genotyp används
vanligtvis till att hänvisa till ett särskilt par av alleler som en person har vid en viss position i
genomet. Jämför med fenotyp. [12]
guanin: Se bas.
haploid: En cell som innehåller halva genetiska komplementet till en somatisk cell, dvs.
halva antalet kromosomer. Exempel: könscellerna, ägget och spermierna. [12]
haplotyp: Den uppställda linjära ordningsföljden av alleler på en kromosom.
Haplotypanalyser är användbara när man ska identifiera rekombinationshändelser. [12]
heterozygot: En diploid organism med två bestämda alleler vid ett särskilt locus under
analys. I detta fall är locuset tänkt att vara heterozygot. [12]
homolog: En medlem i ett par av homologa kromosomer. [17]
homologa kromosomer: Medlemmar av ett par av identiska kromosomer som punkt för
punkt paras ihop under meiosis. Kromosomer som bildar par med varandra vid meiosis eller
kromosomer i olika arter som har bibehållit det mesta av samma gen under deras evolution
från en liknande förfader.[17]
37
homozygot: En individ som har ett homozygot genpar. En diploid eller en polyoid med
identiska alleler vid ett locus. [17]
karyotyp: En fotomikrografik över en individs kromosomer arrangerade i en standardform
som visar nummer, storlek och form på varje kromosomtyp. [12]
kromatid: En kromatid utgör en del av en kromosom efter att den har förenat sig för
delningsprocesserna mitosis eller meiosis. Varje kromosom består av två exakt identiska
systerkromatider. Efter att de har dragits isär av mitotisk ”axel”, kallas kromatider för
kromosomer. Systerkromatider är förenas i en punkt som kallas för centromer. [13]
kromosom: I en cell är DNA indelad i strukturer som kallas kromosomer. Kromosomer är
tillräckligt stora så att man kan se dem i ett mikroskop. I människan består alla celler utom
könscellerna av 46 kromosomer, 22 par av autosomer och antingen ett par av X- kromosomer
(hos kvinnan) eller en X-kromosom och en Y-kromosom (hos mannen). I varje kromosompar
är en kromosom nedärvd från en individs far och en från dess mor. [12]
kromosomal markör: En allel som har ett välkänt fenotypisk uttryck och locus. Används
som en referenspunkt vid kartläggningen av en ny genetisk mutant. [12]
könskromosomer: X- och Y-kromosomerna hos människan bestämmer könet hos en
individ. Kvinnor har två stycken X-kromosomer i en diploid cell och mannen har en Xkromosom och en Y-kromosom. Könskromosomerna utgör det 23:e kromosomparet i en
karyotyp. Se detta ord. [12]
linkage (koppling): Linkage hänvisar till att vissa gener tenderar att nedärvas tillsammans.
Två gener sägs vara kopplade (linked) om de ofta nedärvs tillsammans, oavsett deras närhet
på en kromosom. Se marker. [12]
linkage disequilibrium: Linkage disequilibrium kallas ofta “allelic association”. När alleler
vid två distinkta loci förekommer i könscellerna mer frekvent än förväntat, givet de kända
allelfrekvenserna och rekombinationsandelen mellan de aktuella loci, sägs allelerna vara i
linkage disequilibrium (kopplingsobalans). Bevis för linkage disequilibrium kan vara till hjälp
vid kartläggning av gener som orsakar sjukdomar, eftersom dessa oftast ligger väldigt nära
varandra. [12]
locus (pl. loci): Positionen för en gen på en kromosom eller en annan kromosommarkör,
även DNA i denna position. Användningen av locus är ibland begränsad till vissa regioner av
DNA, som är uttryckt. Se genetiskt uttryck. [12]
marker: En sekvens av baser vid en fysiskt given unikt plats på genomet, vilket varierar
tillräckligt mellan individer så att nedärvningsmönstret kan följas genom familjer och/eller
kan användas vid särskiljning av celltyper. En markör kan vara en del av en gen, men behöver
inte vara det. Markörer är fundamentala vid studier av härkomst och genetisk kartläggning för
att hjälpa forskarna att minska ned de möjliga positionerna för nya gener och att upptäcka
samband mellan genetiska mutationer och sjukdomar. [12]
meiosis: Processen av två celldelningar av könsceller som sker i följd hos diploida
stamfäder. Resultatet av meiosis ger fyra stycken dotterceller och var och en av dessa
dotterceller har en haploid uppsättning av kromosomer. [12]
38
mitosis: Processen för kärndelning i celler som skapar dotterceller som är genetiskt
identiska med varandra och med föräldercellen. [12]
mutation: En förändring, ett borttagande eller en omplacering i en DNA-sekvens som kan
leda till syntes av ett förändrat inaktivt protein eller oförmåga att producera proteinet. Om en
mutation förekommer i en embryocell så är det en ärftlig förändring som kan ärvas från
generation till generation. Mutationer kan också förekomma i somatiska celler, men dessa
nedärvs inte i traditionell mening utan endast till sina dotterceller. [12]
nukleotid: Byggstenen till nukleinsyrorna, som t. ex. DNA-molekylen. En nukleotid består
av en av de fyra baserna adenin, cytosin, guanin och tymin, som i sin tur är bunden till en
fosfat-sockergrupp. I DNA är sockergruppen en deoxiribo. I RNA, som är en DNA-relaterad
molekyl som hjälper till med att transportera genetisk information från gen till protein, så är
sockergruppen en ribo och basen tymin är utbytt mot basen uracil. Varje grupp om tre
nukleotider i en gen kallas för kodon. Vid proteinsyntesen avläses varje kodon till en specifik
aminosyra. Nukleinsyra är en lång kedja av sammansatta nukleotider och kan ibland kallas för
en polynukleotid. [12]
organism: En levande individ vars fysiologiska funktioner utförs av ”små delar” eller organ,
(t ex. ett hjärta eller en lever), som har skilda funktioner men som inbördes är beroende av
varandra. [12]
polymorfism: Se genetisk polymorfism.
protein: En biologisk molekyl bestående av många aminosyror som är sammansatta av
peptidbindningar. Sekvensen av aminosyror i proteinet bestäms av sekvensen av
nukleotiderna i DNA-molekylen. Allteftersom kedjan av aminosyror blir syntetiserade, viks
den ihop till en högre grad av strukturerad form, t. ex. dubbelspiraler. Proteiner är nödvändiga
för att bygga upp strukturen, funktionen och regleringar av celler, vävnader och andra organ i
kroppen. [12]
recessiv allel: En allel som endast kommer att ge resultat i en speciell fenotyp om dess
motpart också är recessiv eller om det inte existerar någon motpart. Autosomal recessiv
oordning framkallad hos individer som ärver två liknande kopior av en gen lokaliserade på en
av autosomerna. När en recessiv gen associerad med en sjukdom förekommer på vissa platser
på X-kromosomen (hemofilia eller blödarsjukan är en sådan sjukdom) kallas det ”X-linkage
recessive disorder” (X-kopplad recessiv sjukdom). X-linkage recessive disorder kan
förekomma oftare hos män än hos kvinnor, eftersom män bara ärver en kopia av genen (de har
endast en X-kromosom). [12]
rekombinant: Resultatet av en crossover i en dubbel heterozygot förälder så att alleler vid
två loci som finns på homologer mitt emot varandra förs ihop på samma homolog. Termen
används för att beskriva såväl kromosomen som den organism där de sammanträffat. [12]
rekombinationsandelen (θ): Frekvensen av crossing-over mellan två loci. Estimat av
rekombinationsandelen mellan två loci som är mindre än 0.50 är förenlig med loci som är
länkade med varandra. Estimat av rekombinationsandelen som är lika med 0.50 är förenliga
med loci som icke är länkade med varandra. I teorin ska rekombinationsandelen mellan två
39
loci inte överstiga 0.50, men estimat > 0.50 för två loci kan påvisa en högre rekombinogenikarea eller fel i data. När θ = 0 så är markören och sjukdomen på samma locus. [12]
SNP (single nucleotide polymorphism): Variation i en DNA-sekvens som uppstår när en
enkel nukleotid (A, T, C eller G) bytts ut mot en annan nukleotid i genom-sekvensen. [16]
tymin: Se bas.
uracil: Se bas.
överkorsning (crossing-over): Brott i en kromosom från modern och i en kromosom från
fadern under meiosis, då utbyte av motsvarande DNA-sektioner sker innan kromosomerna
förenar sig igen. Denna procedur kan resultera i att alleler byter plats med varandra mellan
kromosomer. Jämför med rekombination. [12]
40
Bilaga 1. Haplotyptabeller för de tre mindre stickproven
Tabell 17. Haplotyper för stickprovet med de 50 första personerna.
SNP nr
a
b
c
d
2-3
69
0
0
2-4
30
39
31
2-8
31
38
31
2-9
46
23
31
3-4
30
39
31
3-8
31
38
31
3-9
46
23
31
4-8
58
3
4
4-9
48
13
29
8-9
50
12
27
31
0
0
0
0
0
0
35
10
11
N
100
100
100
100
100
100
100
100
100
100
61
0
0
0
0
0
0
73
17
17
N
200
200
200
200
200
200
200
200
200
200
Tabell 19. Haplotyper för stickprovet med de 150 första personerna.
SNP nr
a
b
c
d
2-3
210
0
0
90
2-4
91
119
90
0
2-8
95
115
89
1
2-9
150
60
87
3
3-4
91
119
90
0
3-8
95
115
89
1
3-9
150
60
87
3
4-8
174
7
10
109
4-9
143
38
94
25
8-9
145
39
92
24
N
300
300
300
300
300
300
300
300
300
300
Tabell 18. Haplotyper för stickprovet med de 100 första personerna.
SNP nr
a
b
c
d
2-3
139
0
0
2-4
58
81
61
2-8
62
77
61
2-9
99
40
61
3-4
58
81
61
3-8
62
77
61
3-9
99
40
61
4-8
115
4
8
4-9
96
23
64
8-9
100
23
60
41
Bilaga 2. Resultatet av Taylorutvecklingen m.a.p. de första partiella derivatorna för
^
^
R
i Maple
R = ( pra prd − prb prc ) /(( pra + prb )( pra + prc )( prb + prd )( prc + prd ))1 / 2 där pra , prb , prc , prd är de relativa haplotypfrekvenserna i stickprovet.
42
Bilaga 3. Konstanterna Ca, Cb, Cc och Cd i uttrycket för variansen för
^
R
Ca =
Cb =
Cc =
Cd =
43
Bilaga 4. SAS-utskrift av resultatet från
regressionsanalysen
Konstanten k i Std jack (rij ) = k
n skattas m.h.a. regressionsanalys i SAS.
NOTE: No intercept in model. R-Square is redefined.
Analysis of Variance
Source
DF
Model
Sum of
Squares
Mean
Square
F Value
Pr > F
1
Error
0.00508
0.00508 894.23 <.0001
3 0.00001705 0.00000568
Uncorrected Total
4
0.00510
Root MSE
0.00238 R-Square 0.9967
Dependent Mean
0.03196 Adj R-Sq 0.9955
Coeff Var
7.45996
Parameter Estimates
Variable
x
44
DF
1
Parameter
Estimate
0.36712
Standard
Error t Value
0.01228
29.90
Pr > |t|
<.0001
Bilaga 5. 1000 standardavvikelser genererade m.h.a. SAS
libname nyadata 'c:\Karin\nyadata';
data b;
input n se;
cards;
50 0.054636704
100 0.034993294
150 0.028069147
952 0.010143736
;
run;
data a;
set b;
x=n**(-1/2);
run;
proc reg;
model se=x/noint;
run;
data c;
do N=1 to 1000;
se=0.36712*N**(-1/2);
output;
end;
run;
Med hjälp av ett LD-måtts jackknife-standardavvikelser och stickprovsstorlekarna 50, 100,
150 och 952 gjordes en regressionsanalys för att estimera konstanten k i Std jack (rij ) = k n .
Resultatet av regressionsanalysen finns att läsa i bilaga 4. Vi har nu uttryckt jackknifestandardavvikelsen som en funktion av stickprovsstorleken n. De 1000 standardavvikelserna
genereras genom att låta n gå från 1 till 1000. Varje n sätt in i uttrycket för
standardavvikelsen, Std jack (rij ) = k n och 1000 standardavvikelser har skapats.
45