Optimering av metodiken vid genotypning av stora DNA-material Karin Jensevik U.U.D.M. Project Report 2003:14 Examensarbete i matematisk statistik, 20 poäng Handledare: Lars Berglund, UCR, Uppsala universitet och Tomas Axelsson, Institutionen för medicinska vetenskaper, Uppsala universitet Examinator: Dag Jonsson Oktober 2003 Department of Mathematics Uppsala University Sammanfattning Vid studier av människans DNA används ibland så kallade genetiska markörer för att mäta olika typer av genetisk variation. Dessa markörer studeras sedan när man genotypar sitt DNAmaterial, dvs. man läser av markörerna för varje individ som ingår i studiepopulationen. Vid genotypning av stora DNA-material skulle en förfinad metodik spara både tid och pengar. Målet är att på ett tidigt stadium i genotypningen upptäcka de markörer som är kopplade till varandra. Genom att mäta kopplingsgraden mellan par av genetiska markörer kan man överväga, om beroendet är starkt, att bortse från en av markörerna i den fortsatta genotypningen. Det visade sig att det inte fanns något självklart uttryck för variansen till det mått vi valt att beräkna kopplingsgraden med. Detta gjorde att vi fick härleda en variansformel och testa dess egenskaper med simuleringsmetoder. De simuleringsmetoder som användes var bootstrapmetoden och jackknife-metoden. Det bästa resultatet erhölls från jackknife-metoden och enkelsidiga 95 % konfidensintervall till kopplingsmåtten räknades fram. Via en enkel grafisk lösning kan sedan ett snabbt svar fås om kopplingen mellan markörerna i ett par är tillräckligt stark för att avsluta genotypning av en av markörerna. Ett tack till… Jag vill tacka min examinator Dag Jonsson (Matematiska institutionen, Uppsala Universitet) och mina handledare Lars Berglund (UCR, Uppsala Universitet) och Tomas Axelsson (Institutionen för medicinska vetenskaper, Uppsala Universitet) för all hjälp och vägledning under mitt examensarbete. Ett tack även till alla andra som jag har varit i kontakt med under arbetets gång. Innehållsförteckning Innehållsförteckning................................................................................................................... 1 1. Introduktion............................................................................................................................ 2 2. Genetisk bakgrund.................................................................................................................. 3 2.1. Grundläggande begrepp .................................................................................................. 3 2.1.1. Rekombination ......................................................................................................... 5 2.2. Genotyper och haplotyper ............................................................................................... 7 3. Linkage Disequilibrium.......................................................................................................... 9 3.1. Vad menas med Linkage Disequilibrium? ...................................................................... 9 3.2. Olika mått på graden av LD ............................................................................................ 9 4. Studiepopulation och datamaterial ....................................................................................... 12 4.1. Genotypning och studiepopulation................................................................................ 12 4.2. Datamaterial .................................................................................................................. 12 5. Metoder ................................................................................................................................ 14 5.1. Programvara .................................................................................................................. 14 5.2. Omskrivning av R ......................................................................................................... 14 ^ 5.3. Härledning av en allmän variansformel för R .............................................................. 16 5.4. Simuleringsmetoder ...................................................................................................... 19 5.4.1. Bootstrap ................................................................................................................ 19 5.4.2. Jackknife................................................................................................................. 20 5.4.3. Jämförelser mellan bootstrap och jackknife........................................................... 21 5.4.4. Bootstrap- och jackknife-simuleringarna ............................................................... 22 6. Resultat................................................................................................................................. 24 6.1. De 10 LD-måtten och deras standardavvikelser enligt Gauss-approximationen .......... 24 6.1.1. Resultat av bootstrap- och jackknife-simuleringarna............................................. 26 6.1.2. Jämförelser mellan de tre olika standardavvikelserna............................................ 27 6.2. Vid vilket n kan man överväga att endast genotypa en SNP?....................................... 30 7. Diskussion ............................................................................................................................ 33 8. Referenser............................................................................................................................. 34 9. Genetisk ordlista................................................................................................................... 36 Bilaga 1. Haplotyptabeller för de tre mindre stickproven........................................................ 41 ^ Bilaga 2. Resultatet av Taylorutvecklingen m.a.p. de första partiella derivatorna för R i Maple........................................................................................................................................ 42 ^ Bilaga 3. Konstanterna Ca, Cb, Cc och Cd i uttrycket för variansen för R ............................ 43 Bilaga 4. SAS-utskrift av resultatet från regressionsanalysen ................................................. 44 Bilaga. 5 1000 standardavvikelser genererade m.h.a. SAS...................................................... 45 1 1. Introduktion Genetiken är en relativt ung vetenskap som innehåller många frågeställningar som man ännu inte funnit svar på. Man gör fortfarande nya upptäckter och man slutförde alldeles nyligen en omfattande kartläggning av människans genom, arvsmassa. Studier av människans arvsanlag har t. ex. påvisat att vissa sjukdomar kan vara ärftliga. Vid studier av människans DNA används ofta så kallade genetiska markörer för att mäta olika typer av genetisk variation. Dessa markörer studeras sedan när man genotypar sitt DNAmaterial, dvs. man läser av markörerna för varje individ som ingår i studiepopulationen. Syftet med detta examensarbete är att förfina metodiken vid genotypning av stora DNAmaterial. Man vill på ett tidigt stadium i genotypningen kunna upptäcka om det finns några markörer som är kopplade till varandra. Starkt kopplade markörer ökar inte informationsvärdet och genom att mäta kopplingsgraden mellan par av genetiska markörer kan man överväga, om beroendet är starkt, att bortse från en av markörerna i den fortsatta genotypningen. Detta sparar både tid och pengar vid genotypning av stora DNA-material. I kapitel 2 förklaras de genetiska begrepp och termer, som denna uppsats innefattar. De kopplingsmått som finns att tillgå vid beräkningar av beroende mellan olika typer av genetiska markörer i en DNA-sekvens introduceras i kapitel 3. Sedan följer i kapitel 4 en presentation av studiepopulationen och en beskrivning av valet av datamaterial, som beräkningarna sedan utfördes på. Det visade sig att det inte fanns något självklart uttryck för variansen till det mått vi valt att beräkna kopplingsgraden med. Detta gjorde att vi fick härleda en variansformel och testa dess egenskaper med simuleringsmetoder. Hur detta gjordes redovisas i kapitel 5. I kapitel 6 sammanfattas de resultat vi fick och i kapitel 7 diskuteras resultaten. I kapitel 9 finns en genetisk ordlista, som ger en lite mer detaljerad förklaring av de genetiska termer och begrepp, som är markerad med kursivstil i texten. 2 2. Genetisk bakgrund 2.1. Grundläggande begrepp De mest grundläggande enheterna vid studier av arv hos människan är generna. Människan har ca 30 000 gener som är uppdelade på 46 kromosomer, som i sin tur bildar 23 stycken kromosompar. Ett av kromosomparen bestämmer könet på individen. Dessa kromosomer kallas för X- och Y-kromosomer, könskromosomerna. Kvinnor har ett par av X-kromosomer medan män har en X-kromosom och en Y-kromosom. Övriga kromosomer kallas autosomer. I ett kromosompar är den ena kromosomen ett arv från fadern och den andra kromosomen ett arv från modern. Dessa kromosomer är lika till form och storlek, samt nästan identiska i genetisk komposition. Man säger att dessa kromosomer är homologa. Människans kroppsceller har alltså dubbel uppsättning av kromosomer, en från varje förälder. Sådana celler eller individer kallas för diploider. De minsta byggstenarna i en kromosom är basparen, som består av de fyra kvävebaserna adenin (A), cytosin (C), guanin (G) och tymin (T). Adenin och tymin binder kemiskt med varandra och cytosin binder kemiskt med guanin. Kvävebaserna bildar tillsammans med fosfat- och sockergrupper nukleotider. Gener är sammansatta sektioner av nukleotider, som bildar en lång molekyl kallad deoxyribonukleinsyra, DNA. DNA-molekylen har formen av en dubbelspiral, en s.k. dubbel helix. (Figur 1). Figur 1: Schematisk bild över kromosomens byggstenar och utseende. [15] 3 En individs DNA-sekvens är till 99.9 % identisk med en annan individs DNA-sekvens. Cirka 80 % av de 0.1 % DNA, som skiljer sig åt mellan individer, är så kallade Single Nucleotide Polymorphisms, SNP.[16] En SNP är en genetisk variation som förekommer i en individs DNA-sekvens. Det är en enkel bassubstitution av en nukleotid med en annan, t.ex. att en nukleotid med basen A har ersatt en av de andra nukleotiderna C, G eller T.[19] Ett exempel på en SNP är om en individ har DNA-sekvensen GAACCT i en av kromosomerna i ett homologt kromosompar och DNA-sekvensen GAGCCT i den andra kromosomen, dvs. variationen i den tredje positionen utgörs av baserna A och G. Man säger att polymorfismen är A/G (Figur 2). Det speciella genetiska mönstret som ses i en individs DNA kallas för genotyp och i exemplet i figur 2 är A/G en av tre möjliga genotyper för just denna polymorfi, som en individ kan ha i populationen. Det två andra genotyperna en individ kan ha i exemplet nedan är A/A eller G/G. [16] Figur 2: En Single Nucleotide Polymorphism, SNP [15] Man säger att en individ är heterozygot för en SNP när kvävebaserna är olika, t.ex. A/G, och homozygot om det är två likadana kvävebaser, t.ex. A/A. För att få ett korrekt resultat vid bestämning av SNP är det viktigt att man ”läser av” basparen i kromosomerna från samma håll, dvs. att man väljer en sida av den kemiska bindningen mellan basparen i DNA-molekylen och läser av dessa baspar. I exemplet ovan blir en heterozygot individ T/C om man läser av basparen på den motsatta sidan av den kemiska bindningen. För att det ska vara en SNP måste den minst förekommande basen i en genotyp förekomma med en frekvens större än 1 % i den allmänna populationen på kromosomnivå.[16] Med kromosomnivå menas att man tittar på alla kromosomer i populationen, dvs. två gånger antalet individer i populationen. Om frekvensen för den minst förekommande basen i en genotyp är mindre än 1 % kallas inte DNA-variationen för SNP utan istället för mutation. Människans DNA producerar proteiner som har olika funktioner i våra celler. Det är basparens inbördes ordning i en DNA-sekvens som bestämmer vilken typ av protein som ska bildas. Dock är det endast ca 3-5 % av en individs DNA, som kodar för produktionen av 4 protein. Resten sägs hittills bara vara ”tom” kod. De flesta SNP:ar hittas just i dessa avsnitt av ”tom” kod. SNP:ar som finns med i ett avsnitt som kodar för protein eller som styr uttrycket av genen är av stort intresse, eftersom det kan bidra till alternering av biologiska funktioner hos proteinet eller leda till att förändra mängden protein som bildas. En eller flera alternativa former av en gensekvens vid ett specifikt kromosomalt locus kallas för en allel. Med locus (pl. loci) menas en unik kromosomal plats som definierar positionen för en enskild gen eller en DNA-sekvens eller ett baspar. Man har alltid två alleler vid ett s.k. autosomalt locus, dvs. i våra kroppsceller, en från modern och en från fadern. Dessa alleler kan vara lika eller olika, samt ha olika typer av nedärvningsmönster som t.ex. dominanta eller recessiva alleler. Om egenskapen har dominant nedärvning som i ögonfärg, är det den dominanta allelen som bestämmer. Till exempel om en person ärver en allel för bruna ögon från en förälder och en allel för blåa ögon från den andra föräldern kommer det nästan alltid resultera i att personen får bruna ögon, eftersom den allel, som ger brun ögonfärg är dominant gentemot blå ögonfärg. För att en recessiv allel skall slå igenom måste det finnas två recessiva alleler och ingen dominant allel vid ett och samma locus. [13] 2.1.1. Rekombination Det är endast vid celldelning som kromosomerna blir synliga för oss. Det är då de långa DNA- molekylerna ”rullar” ihop sig och får en kryssliknande form, som då kan ses med hjälp av ett mikroskop. Det finns två typer av celldelning, mitosis och meiosis. Mitosis sker i våra ”vanliga” celler, t ex. vid tillväxt, medan meiosis bildar könsceller, dvs. ägg hos kvinnan och spermier hos mannen. [6] Könscellerna innehåller inga homologa kromosompar utan endast en uppsättning av kromosomer, dvs. 23 stycken. Celler som endast har en uppsättning av kromosomer kallas för haploider. Vid befruktningen då ägg och spermie förenas bildas en diploid cell med varsin uppsättning kromosomer från modern och från fadern. Kvinnor bildar könsceller endast en gång i livet och det är i fosterstadiet. Då bildas cirka 600.000 ägg. För männen börjar produktionen av spermier i puberteten och dessa nybildas sedan regelbundet under hela livet. Figur 3 visar en bild av de olika faserna i meiosis. Figur 3: Illustration över hur 4 könsceller bildas när en enkel diploid föräldrarcell delar sig och bildar fyra haploida dotterceller. [15] 5 Under profas 1 i meiosis kan det ske något som kallas för rekombination. Det är då par av homologa kromosomer kommer i kontakt med varandra och utbyter segment. Varje kromosom består av två så kallade syster-kromatider, som är exakt identiska med varandra. Dessa förenar sig vid celldelning och hålls ihop av en punkt som kallas för centromer. Bara två av de fyra kromatiderna är involverade i rekombinationen. Processen kallas också överkorsning eller crossover. Om överkorsning sker mellan två loci på homologa kromatider kommer två kromatider att skapas som är rekombinanta. Följaktligen genererar en sådan crossover 50 % rekombinanta kromatider och 50 % icke-rekombinanta kromatider s.k. föräldrartyper. Sannolikheten att en överkorsning sker mellan två närliggande loci är mindre än om avståndet är stort mellan dem. Därför kommer rekombination sällan att separera loci som ligger väldigt nära varandra på en kromosom. Detta leder till att set av alleler inom begränsade kromosomala segment tenderar att bli överförda som block genom generationer. Ett sådant block kallas för haplotyp. [6] Låt oss antaga att vi har en individ som är heterozygot för två loci som ligger på samma kromosom, t.ex. a1A1 b2B2, och att allelerna a1 och b2 för denna individ kommer från en förälder och att A1 och B2 kommer från den andra föräldern. Denna individs barn som ärver en av föräldrarkombinationerna a1b2 eller A1B2 sägs vara icke-rekombinanta, dvs. de ärver en hel haplotyp. Däremot barn som ärver a1B2 eller b2A1 sägs vara rekombinanta, dvs. haplotypen bryts upp. Proportionen barn vilka är rekombinanta är rekombinationsandelen θ mellan de två loci 1 och 2. [6] Figur 3: Visar ett schema över en kromosom som duplicerar sig under meiosis och vars kromatider utbyter DNA-segment med varandra, en så kallad överkorsning. Kromosomalsegment inom begränsade områden är opåverkade av rekombination och behåller därför sin struktur. Detta innebär att DNA-variationer, som t.ex. SNP:ar, inom segmentet nedärves i ett haplotypblock. Färska undersökningar har visat att människans genom (arvsmassa) kan delas upp i haplotypblock med en begränsad diversitet, dvs. de typer av 6 haplotypblock, som man kan rekonstruera med hjälp av DNA-markörer, som t.ex. SNP:ar, i människans genom är relativt få. I fall då man ej kan påvisa att enskilda polymorfier påverkar en egenskap kan analys av haplotyper användas. Endast ett begränsat antal SNP:ar behövs för att skilja på olika haplotyper vilket gör att det inte är nödvändigt att genotypa samtliga polymorfier inom ett haplotypblock. Förhoppningen är att genetiska studier av t.ex. komplexa sjukdomar och egenskaper kommer att förenklas genom analys av haplotyper. Detta förutsätter dock att DNA-variationer som påverkar dessa egenskaper är ”vanliga” och finns i relativt hög frekvens i populationen. Mutationer som uppkommit naturligt i en individ eller på grund av strålning eller virus kan ge upphov till DNA-variationer, men dessa uppträder oftast i enstaka individer eller familjer och räknas inte som ”vanliga” DNA-variationer. 2.2. Genotyper och haplotyper I tabell 1 nedan visas ett exempel med de tre möjliga genotyperna för ett par av SNP:ar och deras frekvenser nij i stickprovet, där i, j = 1, 2, 3. Genotyperna är C/C, C/T och T/T för SNP 1 och A/A, A/G och G/G för SNP 2. Haplotyperna i detta exempel ges i tabell 2 nedan. Tabell 1. Genotypsfrekvenser för ett par av SNP:ar SNP 1 C/C C/T T/T radsumma A/A n11 n12 n13 n1. A/G n21 n22 n23 n2. G/G n31 n32 n33 n3. kolonnsumma n.1 n.2 n.3 n.. SNP 2 När man har två SNP:ar som båda är homozygoter blir haplotypbestämningen enkel. I tabell 1 ovan finns det n11 stycken personer vars SNP 1 är C/C och SNP 2 är A/A. Dessa kan vi kombinera på två sätt men de båda sätten ger samma haplotypresultat, CA. När vi sedan ska räkna fram haplotypfrekvensen för CA får vi multiplicera n11 med två. Låt oss nu titta på de personer, n21 och n12, som har SNP-kombinationer med en homozygot SNP och en heterozygot SNP. De personer vars SNP 1 är C/C och SNP 2 är A/G har haplotypkombinationerna CA och CG och de personer vars SNP 1 är C/T och SNP 2 är A/A har haplotypkombinationerna CA och TA. Här ser vi att haplotypen CA förekommer i de båda fallen, så n21 och n12 ska även räknas med i haplotypfrekvensen för CA. Haplotypsbestämningen av n22, SNP 1 C/T och SNP 2 A/G, är ej entydig. Förklaringen är att vi här har två SNP:ar som båda är heterozygoter. I ett laboratorium kan man inte avgöra från vilken förälder nukleotiderna kommer från, vilket resulterar i att vi får olika möjliga haplotyper, dvs. CA och TG, eller TA och CG. Oftast är en av haplotypvarianterna mer vanlig än den andra och förekommer med en större sannolikhet i populationen. För att kunna bestämma vilken av haplotypvarianterna som är mer vanlig tas EM-algoritmen till hjälp. EM-algoritmen är en iterativ metod som ger en maximum likelihood-skattning (ML) av haplotypfrekvenserna i en multinomial population, förutsatt att man inte väljer partner efter haplotyper.[9] 7 Låt oss säga att det är haplotyperna 1 och 4, se tabell 2, som är mest vanliga i DNA-materialet och att de förekommer tillsammans i populationen med en sannolikhet 0.97. Vi ska då addera 0.97*n22 till Haplotyp 1 och Haplotyp 4, samt 0.03* n22 till Haplotyp 2 och Haplotyp 3. Tabell 2. Haplotyper Haplotyp 1: C A Haplotyp 2: T A Haplotyp 3: C G Haplotyp 4: T G = 2*n11 + n12 + n21 + 0.97*n22 = n12 + 2*n13 + n23 + 0.03*n22 = n21 +2*n31 + n32 + 0.03*n22 = 2*n33 + n32 + n23 + 0.97*n22 =a =b =c =d Nu är haplotypbestämningarna fullständiga. Tabell 2 över haplotyperna och deras frekvenser kan skrivas om till en korstabell. Tabell 3 visar de absoluta haplotypfrekvenserna för ett stickprov. Tabell 3. Korstabell för de absoluta haplotypfrekvenserna för ett stickprov SNP 1 SNP 2 C T A a b G c d Tabell 4 visar de relativa haplotypfrekvenserna för stickprovet och tabell 5 visar de motsvarande haplotypfrekvenserna för populationen. Tabell 4. Korstabell för de relativa haplotypfrekvenserna för ett stickprov SNP 1 SNP 2 C T summa A pra prb pra + prb G prc prd prc + prd summa pra + prc prb + prd 1 Tabell 5. Korstabell för de relativa haplotypfrekvenserna i populationen SNP 1 SNP 2 8 C T summa A pa pb pa + pb G pc pd pc + pd summa pa + pc pb + pd 1 3. Linkage Disequilibrium 3.1. Vad menas med Linkage Disequilibrium? Den kopplingsgrad, som nämndes i introduktionen och som mäter beroendet mellan par av genetiska markörer kallas för Linkage Disequilibrium*. Definitionen av Linkage Disequilibrium (LD) eller allelic association som det också kallas, är när enskilda alleler vid två distinkta loci förekommer mer frekvent i könscellerna än förväntat under hypotes om oberoende, dvs. linkage equilibrium. Detta förutsätter att man känner till allelfrekvenserna i populationen mellan de aktuella loci, samt rekombinationsandelen θ.[13] LD hänvisar till ett icke-oberoende förhållandet mellan alleler vid olika positioner. Antag till exempel att allelen A vid locus 1 och allelen B vid locus 2 har frekvenserna π A respektive π B i populationen. Om de två loci är oberoende av varandra förväntas allelfrekvensen för AB-haplotypen vara π A π B . Visar det sig att allelfrekvensen i populationen för ABhaplotypen antingen är lägre eller högre än π A π B , vilket i det senare fallet indikerar att vissa alleler tenderar att bli observerade tillsammans, så är de två loci i LD med varandra.[12] När man studerar närliggande SNP:ar finns det ofta en grad av LD , dvs. att en persons värde på SNP 1 kan predicera personens värdet på SNP 2. En förklaring till detta kan vara att SNP 1 och SNP 2 ingår i samma haplotypblock. Om man vet att SNP:arna står i hög LD med varandra kan man välja att endast genotypa en av dem. Det sparar både tid och pengar vid genotypning av stora DNA-material. 3.2. Olika mått på graden av LD Ett locus med två alleler kallas för ett di-allelt locus, dvs. det finns två varianter av ett locus som skiljer sig på något sätt, t.ex. en polymorfi som en SNP. För ett par av di-allela loci, 1 och 2, mäter LD-statistikan D skillnader mellan två kvantiteter: (1) Sannolikheten för att en allel från locus 1, (A1), och en allel från locus 2, (B2), förekommer tillsammans på samma kromosom. (2) Den förväntade förekomsten av A1 och B2 tillsammans under linkage equilibrium. Det uttryck som vi här betecknar p11 är proportionen av kromosomer på vilka allelerna A1 och B2 förekommer tillsammans i en population. Under linkage equilibrium är detta lika med produkten av allelfrekvenserna av A1 och B2 i populationen, dvs. differensen blir (3.1) D = p11 − p1 q1 * equilibrium = jämviktsläge 9 Tabell 6. Relativa allelfrekvenserna för loci A och B A2 B2 p1-p11 p11 A1 q1-p11 1-p1-q1+p11 B1 q1 q2 Summa Summa p1 p2 1 Om D skiljer sig signifikant ifrån 0, så säger man att LD troligtvis existerar. Graden av LD mellan två loci är beroende av både rekombinationsandelen θ och tiden t i generationer, t Dt = D 0 (1 − θ ) . Detta leder till att D tenderar att minska när de två loci kommer längre ifrån varandra och med tiden genom rekombination. D ger en enkel indikation om frekvensen av rekombination, samt om det fysiska avståndet mellan två loci. D kan skalas om till D’=D/Dmax, där Dmax= min( p1 q 2 , p 2 q1 ). I många jämförbara analyser där man har mätt LD mellan två loci har det visats sig att i nästan alla fall har LD-måttet D’ varit att föredra när man beräknar det fysiska avståndet mellan SNP:ar eller markörer. Det beror till största delen på att andra mått, som till exempel D, är beroende av allelfrekvenserna. En annan vanlig omskalning av D är R, som fås genom att dividera uttrycket för D med ( p1 p 2 q1q 2 ) . (3.2) R= p11 − p1 q1 p1 p 2 q1 q 2 där − 1 ≤ R ≤ 1 ^ ^ 2 Vid insättning av de observerade haplotypfrekvenserna fås R . R har formen χ 2 N , där χ 2 -statistikan med 1 frihetsgrad kan åstadkommas från en 2*2-tabell av de absoluta haplotypfrekvenserna, ( a, b, c, d ) (se tabell 3). N är här det totala antalet haplotyper i stickprovet. Detta gäller under förutsättning att loci A och B är oberoende av varandra, dvs. under hypotesen att p11 = p1 q1 . Det handlar alltså om χ 2 -statistikan vid ett oberoendetest. [11] LD-måtten R och R2 har några fördelar jämfört med D’. För små stickprovsstorlekar och för låga allelfrekvenser överskattas D’, medan R uppvisar mer pålitliga stickprovsegenskaper. För ett par av SNP:ar måste det definitionsmässigt minst finnas två haplotyper med en frekvens > 0. D’ kommer att vara lika med 1.0 när en eller två haplotyper saknas i stickprovet. Fördelen med R är att R är lika med 1.0 när det bara är två haplotyper som saknas av de fyra möjliga. När ingen rekombination har skett mellan två markörer kommer D’ att vara lika med 1.0, förutsatt att inte det förekommit någon mutation eller fel vid genotypningen. Detta gäller ej för R, som är beroende av allelfrekvenserna för de två markörerna. Detta medför att man använder sig av D’ vid modellering av graden av rekombination och R och R2 vid modellering av associationsstyrkan. En annan viktig egenskap hos R vid associationsstudier är när man ska designa en studie för att hitta association mellan en specifik SNP A och en sjukdom och samtidigt uppnå en given styrka i studien. Om man antar att man kommer att mäta en SNP B som en markör med en viss grad av LD, mätt med R, till SNP A så behöver man öka antalet individer i studien med faktorn 1 R 2 för att få rätt styrka i testen. Detta enkla förhållande mellan styrkan för två SNP:ar föreligger inte om man använder D eller D’ som LD-mått.[8] Ett aktuellt ämne som är av stort intresse är omfattningen av och fördelningen för LD i människan. LD spelar en fundamental roll vid kartläggningen av gener, både som ett verktyg 10 för en noggrannare kartläggning av komplexa sjukdomar och i den planerade vidsträckta associationsstudien av mänskliga gener. LD är också av intresse för vad den kan avslöja om människans historia och människans ursprung, eftersom fördelningen av LD i huvudsak bestäms av populationens historia. [12] Eftersom vi varken är intresserade av att beräkna det fysiska avståndet mellan SNP:arna eller rekombinationsandelen har vi valt att använda LD-måttet R i våra beräkningar av LD. 11 4. Studiepopulation och datamaterial 4.1. Genotypning och studiepopulation Vid enheten för molekylär medicin vid institutionen för medicinska vetenskaper i Uppsala bedrivs genotypning med flera olika metoder för ett antal tillämpningsområden. Som exempel kan nämnas farmakogenomik, där kandidatgener som reglerar svar på läkemedelsbehandling studeras. Vid genotypning har man möjlighet att studera stora patientmaterial av DNA. Tillvägagångssättet är att man väljer ut ett kromosomalt område eller en eller flera gener man vill studera och sätter så kallade marker, genetiska markörer, vid de SNP:ar man är intresserade av. Sedan genotypas dessa för varje person som är med i studien, dvs. man läser av SNP:arna vid markörerna för varje person. Det material som legat till grunden för vårt arbete är ULSAM, Uppsala Longitudinal Study of Adult Men.[20] Detta är en pågående studie av nästan alla män som är födda mellan 1920 och 1924 och som bodde i Uppsala kommun 1970. Dessa män blev undersökta vid 50, 60, 70 och 77 års ålder. Man har fokuserat sig på att identifiera faktorer som tros ligga bakom kardiovaskulära och metabola sjukdomar, som t. ex. hjärtinfarkt och diabetes.[7] Eftersom det nästan är alla män som är födda mellan dessa år är det ett populationsbaserat material. Det är totalt 2322 män som ingår ULSAM-projektet, men det DNA-material som vi har haft tillgång till omfattar 1052 män, som var med vid 70-årsundersökningen och för vilka DNA finns sparat. 4.2. Datamaterial DNA-materialet från genotypningen består av 5 st gener med 10, 14, 8, 6 samt 1 SNP:ar. Vi är endast intresserade av att beräkna LD för par av SNP:ar inom gener. Med hjälp av dataprogrammet Haplotyp Reconstructor, framtaget för att beräkna haplotyper, valdes den gen, som när ofullständiga genotypdata tagits bort gav störst stickprovsstorlek. Denna gen har 5 SNP:ar, som är numrerade 2, 3, 4, 8 och 9, samt en stickprovsstorlek på 952 personer. Detta ger oss 10 st LD-mått att analysera. Nästa steg var att haplotypbestämma materialet med de 5 SNP:arna. Resultatet blev följande: Tabell 7. Estimerade haplotypsdata för de 10 paren av SNP:ar SNP nr a b c 2-3 1240 3 0 2-4 503 740 661 2-8 533 710 647 2-9 882 361 601 3-4 500 740 664 3-8 530 710 650 3-9 879 361 604 4-8 1128 36 52 4-9 888 276 595 8-9 920 260 563 12 d 661 0 14 60 0 14 60 688 145 161 N 1904 1904 1904 1904 1904 1904 1904 1904 1904 1904 Här motsvarar a, b, c och d de fyra möjliga haplotyperna i stickprovet, jämför med tabell 3. Beräkningarna av LD sker på kromosomnivå, så stickprovsstorleken ökar till 1904, eftersom människan är en diploid organism. När man genotypar stora DNA-material skulle det vara optimalt om man på ett tidigt stadium, t.ex. efter ca 50 genotypningar, kunde avgöra om kopplingsgraden mellan SNP:ar är så stor att man kan utesluta någon SNP i den fortsatta genotypningen. Detta har gjort att vi har tagit 3 st mindre stickprov från det ursprungliga stickprovet på 952 personer. De 50, 100 respektive 150 första personerna från det ursprungliga stickprovet utgör dessa mindre stickprov. Tanken är att vi ska studera kopplingsmåtten i de mindre stickproven och se om de resultat vi får stämmer överens med resultatet i det stora stickprovet. Resultaten av haplotypbestämningarna för de mindre stickprovsstorlekarna finns under bilaga 1. 13 5. Metoder 5.1. Programvara I våra beräkningar använde vi oss av SAS[22] version 8.2, som är ett statistiskt mjukvaruprogram för datorer. Vi hade också användning av ett matematiskt formelberäkningsprogram, Maple[21] version 8. 5.2. Omskrivning av R Om man tittar på tabellerna 5 och 6 ser man att de beskriver samma sak. Detta ger oss följande samband för allelfrekvenserna: p11 = p a p1 = p a + pb p2 = pc + pd q1 = p a + p c q 2 = pb + p d p a + pb + p c + p d = 1 (5.1) Med hjälp av detta kan vi nu skriva om uttrycket för R. D = p11 − p1 q1 = = p a − ( p a + pb )( p a + p c ) = (5.2) = p a − ( p a2 + p a pc + pb p a + pb p c ) = = p a − p a2 − p a pc − pb p a − pb p c = = p a (1 − p a − p c − pb ) − pb p c = = p a p d − pb p c Detta ger oss slutligen följande formel för R, (5.3) 14 R= D p1 p 2 q1 q 2 = p11 − p1 q1 p1 p 2 q1 q 2 = p a p d − pb p c ( p a + pb )( p c + p d )( p a + p c )( pb + p d ) Definition 5.1. Låt a, b, c och d vara de absoluta frekvenserna av de fyra haplotyperna i stickprovet och p a , pb , p c , p d de motsvarande relativa haplotypfrekvenserna i populationen. Då definieras ρ enligt följande, (i) ρ = abs(R) där (ii) R = ( p a p d − pb p c ) /(( p a + pb )( p a + pc )( pb + p d )( pc + p d ))1 / 2 Stickprovsestimatet av R uttryckt i de absoluta haplotypfrekvenserna, ^ R = (ad − bc) /((a + b)(a + c)(b + d )(c + d ))1 / 2 och uttryckt i de relativa haplotypfrekvenserna, ^ R = ( pra prd − prb prc ) /(( pra + prb )( pra + prc )( prb + prd )( prc + prd ))1 / 2 Att man tar absolutbeloppet av R är en praxis i genetiska sammanhang. Sats 5.1. ^ ^ ^ Stickprovsestimatet av ρ är ρ = r = abs ( R) . Variansen för R är följande under hypotesen H0: Inget samband. (1) ^ 1 − R 2 + (R + Var ( R ) = − ( p a − p d ) 2 − ( pb − pc ) 2 1 3 R ) 2 (( p a + p b )( p a + p c )( p b + p d )( p c + p d ))1 / 2 n 3 2 ( p a + pb − p c − p d ) 2 ( p a + p c − pb − p d ) 2 − R 4 ( p a + pb )( p c + p d ) ( p a + p c )( pb + p d ) n (2) (3) ^ σ = Var ( R) 2σ 2 1 R 2 R R Var (r ) = Var ( R ) + R − exp − + R Φ − Φ − 2 σ π σ σ där Φ (x) är fördelningsfunktion för standardnormalfördelningen N(0.1). ^ 2 2 Den variansformel som ges ovan (1) gäller för ρ -värden kring 0. Den förutsätter att inget samband råder mellan SNP:arna, vilket inte är tillräckligt för oss. Vi behöver ett allmänt ^ uttryck för variansen av R . 15 ^ 5.3. Härledning av en allmän variansformel för R ^ Vi behöver alltså finna ett allmänt uttryckt för Var ( R ) , som sedan kan ge oss Var (r ) . Dessa ^ beräkningar är inte helt triviala, eftersom uttrycket för R är en kvot med fyra variabler. Ett ^ ^ sätt att få en approximation av Var ( R) är att Taylorutveckla uttrycket för R kring ^ väntevärdet E (R) . Vi nöjer oss med att endast ta med de första partiella derivatorna för R , eftersom det ger oss ett linjärt uttryck, som i sin tur underlättar fortsatta beräkningar. Sedan används Gauss-approximationsformel för variansen. Vi använde oss av Maple för att göra ^ ovanstående Taylorutveckling på R (Bilaga 2), men visar här i liten skala hur principen går ^ till. För att gör det hela lite enklare väljer vi att tittar på R :s täljare. (5.4) täljare = f ( pra , prb , prc , prd ) = pra prd − prb prc De första partiella derivatorna med avseende på täljarens fyra variablerna ( pra , prb , prc , prd ) , som är de relativa frekvenserna i stickprovet, räknas fram. Dessa partiella derivator sätt sedan in i Taylorutvecklingen för täljaren. Definition 5.2. Om alla ordningar av derivator till f (x ) existerar i punkten x = c , dvs. om f ( k ) (c) existerar för k = 0,1,2,... så kallar vi ∞ ∑ k =0 f ' ' (c ) f ( k ) (c ) ( x − c) 2 + ... ( x − c) k = f (c) + f ' (c)( x − c) + k! 2! Taylorutvecklingen av f kring x = c . v Täljaren (5.4) Taylorutvecklades kring vektorn p = ( p a , pb , p c , p d ) . f ( pra , prb , prc , prd ) Taylor ∂f ( pra , prb , prc , prd ) ( pra − p a ) = f ( p a , pb , p c , p d ) + ∂pra pv ∂f ( pra , prb , prc , prd ) ∂f ( pra , prb , prc , prd ) ( prb − pb ) + + ∂prc ∂prb pv pv ∂f ( pra , prb , prc , prd ) ( prd − p d ) ∗ ( prc − p c ) + ∂prd pv 16 v Efter insättning av partiella derivator för vektorn p = ( p a , pb , p c , p d ) och förenklingar av Taylorutvecklingen för täljaren får man följande. (5.5) f ( pra , prb , prc , prd ) Taylor = p d pra − p c prb − pb prc + p a prd + pb pc − p a p d Vi har nu fått en approximation av (5.4) via Taylorutvecklingen, som är matematiskt mycket lättare att handskas med. Frågan är nu bara hur bra denna approximation är? Låt oss jämföra vår approximation f ( pra , prb , prc , prd ) Taylor med f ( pra , prb , prc , prd ) i punkten 868 352 612 72 , , , . Dessa värden sätts in i uttrycket för täljaren, samt dess 1904 1904 1904 1904 approximation och följande resultat fås. 868 352 612 72 f , , , = −0.042184521 1904 1904 1904 1904 868 352 612 72 = −0.042165488 , , , f 1904 1904 1904 1904 Taylor Approximationen visar sig vara bra. Det motsvarande R-värdet är -0.22904 vilket ger ett lågt 1136 31 58 679 värde på r. Låt oss ta en annan punkt , , , , som ger ett högre r-värde. 1904 1904 1904 1904 Efter insättning i formler fås. 1136 31 58 679 f , , , = 0.212275903 1904 1904 1904 1904 1136 31 58 679 f , , , = 0.212287489 1904 1904 1904 1904 Taylor Även denna punkt ger en bra approximation. Det motsvarande R-värdet här är 0.90250, vilket ger ett högt värde på r. Vi kan fortsätta våra beräkningar av variansen för approximationen av täljaren. Variansformeln för (5.5) ser ut på följande vis: (5.6) Var ( f Taylor ) 2 2 2 2 = p d Var ( pra ) + p c Var ( prb ) + pb Var ( prc ) + p a Var ( prd ) − 2 p d pc Cov( pra , prb ) − 2 p d pb Cov( pra , prc ) + 2 p d p a Cov( pra , prd ) + 2 p c pb Cov( prb , prc ) − 2 p c p a Cov( prb , prd ) − 2 pb p a Cov( prc , prd ) De fyra variablerna är binomialfördelade, n ⋅ pri ∈ Bin(n, pi ) och variansen för pri är därmed pri (1 − pri ) . Eftersom summan av de fyra variablerna är n så kan kovariansen för två relativa n 17 frekvenser skrivas som Cov( pri , pr j ) = − pi p j n , ( i = a, b, c eller d ). Insättning av varianser och kovarianser i (5.6) ger oss följande: (5.7) Var ( f Taylor ) = pd + 2 ( p a (1 − p a ) 2 p (1 − p b ) 2 p (1 − p c ) 2 p (1 − p d ) + pa d + pc b + pb c n n n n 2 2 2 2 2 4 p a pb pc p d − p a p d − pb pc n ) Om vi räknar fram variansen med formel (5.7) för det f Taylor som gav ett lågt r-värde får man Var ( f Taylor ) = 0.0000165332 som ger Std ( f Taylor ) = 0.0040661057 . Detta kan jämföras med resultatet från en simuleringsmetod kallad bootstrap (se kap. 5.4.1), som ger Std ( f Bootstrap ) = 0.0057351 . Låt oss nu göra samma sak för det f Taylor som gav ett högt r-värde. Variansen som fås från (5.7) blir Var ( f Taylor ) = 0.0000118724 och dess standardavvikelse Std ( f Taylor ) = 0.003445637 . Detta ska jämföras med standardavvikelsen från bootstrap- simuleringen, Std ( f Taylor ) = 0.0033373 . Man kan se att (5.7) skattar variansen bättre för höga r-värden och sämre får låga r-värden. Eftersom vi är intresserade av par av SNP:ar som ger hög LD kan vi godta denna approximation tillsvidare. ^ På samma sätt genomfördes beräkningarna på kvoten för R . Som nämndes tidigare gjordes ^ en Taylorutveckling av R med hjälp av Maple och varians- och kovariansberäkningar gjordes numeriskt i SAS. Resultatet, se formel (5.8), blev en allmän variansformel för R som ger en bra approximation av variansen för höga r-värden, men sämre för låga r-värden. ^ (5.8) Var ( R Taylor ) 2 2 2 2 = C a Var ( pra ) + C b Var ( prb ) + C c Var ( prc ) + C d Var ( prd ) + 2C a C b Cov( pra , prb ) + 2C a C c Cov( pra , prc ) + 2C a C d Cov( pra , prd ) + 2C b C c Cov( prb , prc ) + 2C b C d Cov ( prb , prd ) + 2C c C d Cov( prc , prd ) Här är C a , C b , C b och C d konstanter, se bilaga 3 för definitioner, och pra , prb , prc , prd de relativa haplotypfrekvenserna i stickprovet. ^ (5.9) Var ( R Taylor ) 18 p a (1 − p a ) 2 p (1 − p b ) 2 p (1 − p c ) 2 p (1 − p d ) + Cd d + Cb b + Cc c n n n n pa pa pa pc pa pd pb pc − 2C a C b − 2C a C c − 2C a C d − 2C b C c n n n n pc pd pb p d − 2C b C d − 2C c C d n n = Ca 2 5.4. Simuleringsmetoder 5.4.1. Bootstrap När man inte känner till fördelningen för en eller flera stokastiska variabler kan man med hjälp av simulering kontrollera sina data. Vi använde oss av en simuleringsmetod kallad bootstrap för att kontrollera hur bra approximationen av variansen (5.9) är. Bootstrapsimulering är en icke-parametrisk metod som är mycket användbar. Metoden går ut på att man från sitt stickprov drar data med återläggning och skapar ett så kallat bootstrap-sampel. Detta sampel har samma stickprovsstorlek som det ursprungliga stickprovet. Beräkningar av estimat, som t. ex. medelvärde och standardavvikelse, utförs på det nya bootstrap-samplet precis som på det ursprungliga. Man gör denna procedur ett antal gånger beroende på vad man vill testa. Vi är intresserade av att approximera en varians, så vi skapade 1000 bootstrapsampel. Om man t. ex. ska approximera en låg precentil bör man minst ta tio gånger fler bootstrap-sampel än vad vi gjorde. 5.4.1.1 Standardavvikelsen för bootstrap-estimatorn ^ iid Givet statistikan θ ( X 1 , X 2 ,..., X n ) definierad symmetriskt i X 1 , X 2 ,..., X n ~ F , skrivs ^ standardavvikelsen för θ som ^ Std = σ F , n, θ = σ (F ) . (5.10) ^ Den sista notationen visar att, givet stickprovsstorleken n och formen på statistikan θ (⋅,⋅,⋅,⋅) , så är standardavvikelsen en funktion av den okända sannolikhetsfördelningen F . Bootstrap^ estimatet av standardavvikelsen är helt enkelt σ = (⋅) evaluerat för F = F , ^ ^ Std boot = σ F . (5.11) ^ F är den icke-parametriska maximum likelihood-estimatorn av F . ^ 5.4.1.2 Bootstrap-proceduren för att finna sampelfördelningen av θ Vanligtvis kan inte funktionen σ (F ) skrivas ned explicit. För att kunna klara beräkningar av ^ Std är det nödvändigt att använda sig av en Monte Carlo-algoritm. (1) Anpassa den icke-parametriska maximum likelihood-estimatorn av F , 1 i = 1, 2,…n. på xi , (5.12) n dvs. sannolikhetsmassan fördelas jämnt över observationerna. ^ F :mass 19 ^ (2) Drag ett bootstrap-sampel från F , iid X ∗1 , X ∗ 2 ,..., X ∗ n ~ F (5.13) ^∗ och beräkna θ = θ (X ∗1 , X ∗ 2 ,..., X ∗ n ) . ^ (3) Upprepa steg 2 ett stort antal gånger, B, oberoende av varandra. Då fås följande ^ ∗1 ^ ∗2 ^ ∗B bootstrap-replikat θ , θ ,..., θ och bootstrap-estimatet av standardavvikelsen blir 2 1/ 2 B ^ ∗b ^ ∗⋅ 1 (5.14) Std boot = ∑ θ − θ . B − 1 b =1 ^ ∗⋅ 1 B ^ ∗b Det som är betecknat med en punkt betyder: θ = ∑b =1θ . B ^ Om man låter B → ∞ så kommer (5.14) att bli exakt lika med (5.10). I praktiken är det begränsad datorkapacitet som avgör hur många bootstrap-sampel som kan genereras. ^ ∗⋅ θ kan även användas för att t. ex. bestämma ett icke-parametriskt konfidensintervall för θ . 5.4.2. Jackknife Vi använde oss av ytterligare en simuleringsmetod kallad jackknife, som även den är en ickeparametrisk metod. Jackknife introducerades av Maurice Quenouille i slutet av 1940-talet och var den första datorbaserade metoden för att estimera bias på standardavvikelser. Inte förrän många år senare, 1979, skulle bootstrap-metoden introduceras. Jackknife-metoden går till så att man skapar n st nya stickprov med stickprovsstorleken n-1, så kallade jackknife-sampel, från sitt ursprungliga stickprov med stickprovstorlek n. Första steget är att utelämna den första observationen i stickprovet, vilket ger det första jackknifesamplet x(1) . Steg två är att utelämna den andra observationen i stickprovet och då fås jackknife-samplet x( 2) . Denna procedur görs n gånger och då har alla observationer blivit utelämnade varsin gång. Beräkningar av estimat, som t. ex. medelvärde och standardavvikelse, utförs på de nya samplen precis som på det ursprungliga stickprovet. Vår studiepopulation består av 952 personer, vilket ger oss 952 st jackknife-sampel. Det är nästan lika många sampel som bootstrap-metoden gav (1000 sampel). Skillnaden är att jackknife-metoden har en begränsning när det gäller antalet sampel. Antalet observationer bestämmer antalet jackknife-sampel, medans bootstrap-metoden kan teoretiskt sett ge oändligt många sampel. 20 5.4.2.1 Standardavvikelsen för jackknife-estimatorn ^ Antag att vi har ett stickprov x = ( x1 , x 2 ,..., x n ) och en estimator θ = s (x). Vi vill estimera ^ standardavvikelsen för θ . Jackknife riktar fokus på de stickprov som bortser från en observation varje gång: x( i ) = ( x1 , x 2 ,..., xi −1 , xi +1 ,..., x n ) , (5.15) där i = 1, 2, … , n. Här är x(i ) ett så kallat jackknife-sampel. Det i:te jackknife-samplet består av ett data-set där den i:te observationen är borttagen. ^ ^ Låt θ ( i ) = s (x(i)) vara det i:te jackknife-replikatet av θ . Jackknife-estimatorns standardavvikelse definieras då som (5.16) ^ där θ (.) = ^ n −1 n ^ 2 = ( θ − θ i ( ) (.) ) ∑ n i =1 ^ Std jack 1/ 2 , 1 n ^ ∑ θ (i ) . n i =1 5.4.3. Jämförelser mellan bootstrap och jackknife ^ Vilken metod är bäst? Eftersom det endast krävs n st jackknife-stickprov för att beräkna θ kan man tycka att jackknife-metoden är enklare om, låt oss säga, n är mindre än de 100 eller 200 replikat som dras enligt bootstrap-metoden. Genom att endast titta på de n stickproven ^ jackknife-metoden ger, ser jackknife ut att ge en begränsad information om statistikan θ , vilket i sin tur leder till att man kan tro att bootstrap är mer effektiv än jackknife. Det visar sig att jackknife-metoden kan ses som en approximation av bootstrap-metoden. Här är essensen bakom denna ide. Låt oss antaga att vi har en linjär statistika, dvs. en statistika som kan skrivas som ^ θ = s ( x) = µ + (5.17) 1 n ∑ α ( xi ) , n i =1 där µ är en konstant och α (⋅) är en funktion. Medelvärdet är det enklaste exemplet på en linjär statistika där µ = 0 och α ( xi ) = xi . För en sådan statistika visar det sig att jackknifeoch bootstrap-estimatet av standardavvikelsen nästan är detsamma bortsett en faktor, ^ _ {(n − 1) / n}1 / 2 , som finns hos jackknife-estimatet. Detta är vad vi exakt fann för θ = x : 1/ 2 Std jack _ n = ∑ ( xi − x) 2 {(n − 1) / n} i =1 Std boot _ n = ∑ ( xi − x) 2 i =1 1/ 2 21 För icke-linjära statistikor går dock information förlorad när jackknife tillämpas. Jackknife gör en linjär approximation av bootstrap-estimatet, dvs. den ger samma resultat som 1/ 2 bootstrap, förutom faktorn {(n − 1) / n} ), för en viss form av linjär statistika (5.17) som ^ approximerar θ . Det visar sig att noggrannheten för jackknife-estimat är beroende av hur ^ linjär θ är. För klart icke-linjära funktioner kan jackknife-metoden vara ineffektiv, rent av dålig. Jackknife är även väldigt känslig för om datamängden inte är ”smooth”, dvs. små förändringar i data kan ge stora förändringar i statistikan. 5.4.4. Bootstrap- och jackknife-simuleringarna De 1000 bootstrap-samplen skapades med hjälp av SAS. I varje bootstrap-sampel räknades rvärdet fram för varje SNP-kombination, dvs. för SNP i och SNP j, i ≠ j , erhölls 1000 rvärden. Bootstrap-estimatet av rij för graden av LD mellan SNP i och j är medelvärdet av rvärdena från de 1000 bootstrap-samplen *. rij = 1 B *b ∑ rij B b =1 och standardavvikelsen för bootstrap-estimaten ges av [ 1 B *b *. Std boot (rij ) = rij − rij ∑ B − 1 b =1 * ] 2 1/ 2 . I vårt fall blev jackknife-simuleringen enkel, eftersom vi endast har fyra olika grupper av individer som har samma typ av haplotyper. För individer inom samma grupp är definitionen av jackknife-estimatet densamma, jämfört med normalfallet då varje individ har ett eget definierat jackknife-estimat. Detta är anledningen till att simuleringen blev enklare i vårt fall. Bokstäver a, b, c och d symboliserar de fyra möjliga haplotyperna och i och j står för SNPkombinationen, dvs. SNP i och SNP j där i ≠ j . Dessa togs bort på följande vis, Rija = Rijb = Rijc = Rijd = 22 (a − 1)d − bc ((a − 1) + b)((a − 1) + c)(b + d )(c + d ) ad − (b − 1)c (a + (b − 1))(a + c)((b − 1) + d )(c + d ) ad − b(c − 1) (a + b)(a + (c − 1))(b + d )((c − 1) + d ) a(d − 1) − bc (a + b)(a + c)(b + (d − 1))(c + (d − 1)) Detta ger rija = abs( Rija ) , rijb = abs( Rijb ) , rijc = abs( Rijc ) och rijd = abs ( Rijd ) , som är jackknife-estimaten för de fyra olika haplotyp-grupperna. Dessa r vägdes sedan ihop till rijw = arija + brijb + crijc + drijd (a + b + c + d ) . Jackknife-estimatens standardavvikelse har följande form n −1 Std jack (rij ) = a(rija − rijw ) 2 + b(rijb − rijw ) 2 + c(rijc − rijw ) 2 + d (rijd − rijw ) 2 n ( ) 1/ 2 . 23 6. Resultat 6.1. De 10 LD-måtten och deras standardavvikelser enligt Gaussapproximationen I SAS utfördes numeriska beräkningar på det datamaterial som presenterades i kapitel 4, se tabell 7. För beräkningar av LD användes ρ , ^ ρ = abs( R) och r = abs( R) där ^ R = ( pra prd − prb prc ) /(( pra + prb )( pra + prc )( prb + prd )( prc + prd ))1 / 2 och för beräkningar av standardavvikelser användes Std (r ) = (6.1) 2 2σ 2 ^ 1 R 2 R R 2 Var ( R ) + R − exp − + R Φ − Φ − 2 σ π σ σ 1/ 2 ^ där Var ( R) är den allmänna variansformeln som härleddes i kapitel 5.3 med hjälp av Gaussapproximationsformler, ^ Var ( R) 2 2 2 2 ≈ C a Var ( pra ) + C b Var ( prb ) + C c Var ( prc ) + C d Var ( prd ) + 2C a C b Cov( pra , prb ) + 2C a C c Cov( pra , prc ) + 2C a C d Cov( pra , prd ) + 2C b C c Cov( prb , prc ) + 2C b C d Cov( prb , prd ) + 2C c C d Cov( prc , prd ) . Tabell 8 nedan visar resultatet för det stickprov där alla 952 personerna togs med. Tabell 8. SNP nr r Std(r) 2-3 2-4 2-8 2-9 3-4 3-8 3-9 4-8 4-9 8-9 0.99653 0.58144 0.53939 0.22904 0.58346 0.54141 0.23056 0.90250 0.04835 0.00238 0.00199 0.00963 0.01003 0.01161 0.00965 0.01004 0.01160 0.00934 0.01020 0.00608 Tabell 9 visar resultaten för de tre mindre stickproven, där stickprovsstorlekarna är 50, 100 respektive 150 personer. Tabell 9. SNP nr r_50 Std(r_50) r_100 Std(r_100) r_150 Std(r_150) 24 2-4 2-8 2-9 3-4 3-8 3-9 4-8 4-9 8-9 1.0000 2-3 0.53595 0.52475 0.36633 0.53595 0.52475 0.36633 0.85239 0.05018 0.11064 0.0000 0.04031 0.03977 0.03322 0.04031 0.03977 0.03322 0.04710 0.03402 0.03798 1.0000 0.54655 0.52414 0.33123 0.54655 0.52414 0.33123 0.87528 0.02037 0.04110 0.0000 0.02893 0.02815 0.02280 0.02893 0.02815 0.02280 0.03127 0.02196 0.02711 1.0000 0.53082 0.50486 0.28395 0.53082 0.50486 0.28395 0.88129 0.00017 0.00605 0.0000 0.02322 0.02373 0.02555 0.02322 0.02373 0.02555 0.02521 0.01515 0.01583 För att lättare kunna se skillnaderna mellan de 10 LD-måtten gjordes ett diagram över alla stickprovsstorlekar och LD-mått. Diagram 1: De fyra stickprovsstorlekarna och deras r-värden för de tio LD-måtten 1,2 1,0 0,8 r n = 952 n = 150 0,6 n = 100 n = 50 0,4 0,2 0,0 SNP SNP SNP SNP SNP SNP SNP SNP SNP SNP 2-3 2-4 2-8 2-9 3-4 3-8 3-9 4-8 4-9 8-9 De tio LD-måtten Diagram 1 visar den variation som förekommer mellan stickprovsstorlekarna. Diagram 2: Standardavvikelserna för Gauss-approximationen för de fyra stickprovsstorlekarna vs r-värdet 0,050 0,045 0,040 0,035 n =952 Std 0,030 n = 150 0,025 n = 100 0,020 n = 50 0,015 0,010 0,005 0,000 0,00 0,20 0,40 0,60 0,80 1,00 1,20 r Den framtagna Gauss-approximationen av standardavvikelsen för rij visas för de fyra stickprovsstorlekarna i diagrammet ovan. Nästa steg är att bestämma vilken standardavvikelse som passar bäst till våra r-värden. 25 6.1.1. Resultat av bootstrap- och jackknife-simuleringarna Numeriska beräkningar utfördes i SAS på de 1000 bootstrap-samplen och följande resultat för stickprovet med 952 personer erhölls. Tabell 10: SNP nr 2-3 0.99660 rboot Std(rboot) 0.00195 2-4 2-8 2-9 3-4 3-8 3-9 4-8 4-9 8-9 0.58177 0.54003 0.22865 0.58376 0.54198 0.23017 0.90258 0.04840 0.02371 0.01272 0.01469 0.02797 0.01272 0.01473 0.02792 0.01010 0.02612 0.01735 För de mindre stickproven, n = 50, 100 respektive 150, blev resultatet följande. Tabell 11: SNP nr rboot 50 Std(rboot)50 rboot 100 Std(rboot)100 rboot 150 Std(rboot)150 2-3 2-4 2-8 2-9 3-4 3-8 3-9 4-8 4-9 8-9 1.0000 0.53817 0.52520 0.35836 0.53817 0.52520 0.35836 0.85261 0.10998 0.13811 0.0000 0.05952 0.05387 0.06631 0.05952 0.05387 0.06631 0.05222 0.08025 0.09463 1.0000 0.54538 0.52287 0.32837 0.54538 0.52287 0.32837 0.87602 0.07330 0.07214 0.0000 0.04010 0.03785 0.04496 0.04010 0.03785 0.04496 0.03369 0.05445 0.05523 1.0000 0.52965 0.49989 0.28559 0.52965 0.49989 0.28559 0.88033 0.06163 0.06387 0.0000 0.03330 0.03543 0.06304 0.03330 0.03543 0.06304 0.02623 0.04345 0.04741 Diagram 3 visar skillnaderna mellan de fyra stickprovsstorlekarnas standardavvikelser. Diagram 3: Bootstrap-standardavvikelserna för de fyra stickprovsstorlekarna vs r-värdet 0,10 0,09 0,08 0,07 n=952 Std 0,06 n=150 0,05 n=100 0,04 n=50 0,03 0,02 0,01 0,00 0,00 0,20 0,40 0,60 0,80 1,00 1,20 r Som väntat är standardavvikelsen för den största stickprovsstorleken minst och kurvan är jämnare än för de mindre stickprovstorlekarna. Låt oss nu titta på resultaten av jackknife-simuleringarna. Numeriska beräkningar i SAS gav följande resultat för stickprovet med 952 personer, Tabell 12: SNP nr 2-3 0.99653 rjack Std(rjack) 0.00200 26 2-4 2-8 2-9 3-4 3-8 3-9 4-8 4-9 8-9 0.58144 0.53939 0.22904 0.58346 0.54141 0.23056 0.90250 0.04835 0.00238 0.01267 0.01396 0.01861 0.01268 0.01396 0.01860 0.01014 0.02254 0.02297 För de mindre stickproven blev resultatet följande. Tabell 13: SNP nr rjack 50 Std(rjack)50 rjack 100 Std(rjack)100 rjack 150 Std(rjack)150 2-3 2-4 2-8 2-9 3-4 3-8 3-9 4-8 4-9 8-9 1.0000 0.53595 0.52475 0.36633 0.53595 0.52475 0.36633 0.85239 0.05018 0.11064 0.0000 0.05508 0.05469 0.04747 0.05508 0.05469 0.04747 0.05464 0.10369 0.10462 1.0000 0.54655 0.52414 0.33123 0.54655 0.52414 0.33123 0.87528 0.02037 0.04110 0.0000 0.03903 0.03848 0.03199 0.03903 0.03848 0.03199 0.03499 0.07207 0.07257 1.0000 0.53082 0.50486 0.28395 0.53082 0.50486 0.28395 0.88129 0.00017 0.00605 0.0000 0.03154 0.03315 0.03602 0.03154 0.03315 0.03602 0.02807 0.03586 0.05813 Om man jämför resultaten för jackknife-estimaten med resultaten från beräkningarna på våra ursprungliga stickprov ser man att dessa ger samma r-värdena, men olika standardavvikelser. Det är inte oväntat, eftersom de jackknife-sampel vi får vid simuleringen nästan är identiska * med det ursprungliga stickprovet, till skillnad mot bootstrap-estimatet rij , som skiljer sig en aning från det rij som fås från beräkningar på det ursprungliga stickprovet. Det som just nu är av intresse är standardavvikelserna och inte r-värdena. Diagram 4 visar hur jackknifestandardavvikelserna ser ut mellan de fyra stickprovsstorlekarna. Diagram 4: Jackknife-standardavvikelserna för de fyra stickprovsstorlekarna vs r-värdet 0,12 0,10 Std 0,08 n=952 n=150 0,06 n=100 n=50 0,04 0,02 0,00 0,00 0,20 0,40 0,60 0,80 1,00 1,20 r Nu har vi fått fram två stycken standardavvikelser genom att använda två olika simuleringsmetoder. Dessa kan vi nu jämföra med varandra och med Gauss-approximationen av standardavvikelsen för rij , se (6.1). 6.1.2. Jämförelser mellan de tre olika standardavvikelserna Om man nu resonerar så att bootstrap ger det ”sanna” värdet på standardavvikelsen för rij , ser man att vår formel för standardavvikelsen, som i diagrammen nedan kallas för Gauss, skattar 27 standardavvikelsen dåligt för låga r-värden och bra för höga r-värden. Med höga r-värden menas rij > 0.80. Diagram 5 visar skillnaderna för den största stickprovsstorleken och diagram 6 visar skillnaderna för den minsta stickprovsstorleken. Diagram 5: De tre standardavvikelserna vs r-värdet (n = 952) 0,030 0,025 0,020 Std Gauss 0,015 Bootstrap Jackknife 0,010 0,005 0,000 0,00 0,20 0,40 0,60 0,80 1,00 1,20 r Skillnaderna mellan standardavvikelserna för de båda simuleringsmetoderna minskar när r närmar sig 1.0. Diagram 6: De tre standardavvikelserna vs r-värdet (n = 50) 0,12 0,10 0,08 Std Gauss 0,06 Bootstrap Jackknife 0,04 0,02 0,00 0,00 0,20 0,40 0,60 0,80 1,00 1,20 r För höga r-värden är skillnaderna mellan de tre standardavvikelserna i diagram 5 och diagram 6 i stort sett desamma. Detta är bra för oss, eftersom vi är intresserade av höga värden på r. Låt oss titta närmare på de tre högsta LD-måtten. De tre SNP:ar som ger de största LD-måtten är SNP:arna 2 och 3, 3 och 4, samt 4 och 8. Nedan i tabell 14 är resultaten för dessa SNP:ar för stickprovsstorleken n = 952 sammanfattade. 28 Tabell 14: Resultaten för de tre par av SNP:ar som ger högst LD (n=952) SNP nr 2-3 3-4 4-8 r 0.99653 0.58346 0.90250 r-bootstrap 0.99660 0.58376 0.90258 r-jackknife 0.99653 0.58346 0.90250 Std-Gauss 0.00199 0.00965 0.00934 Std-bootstrap 0.00195 0.01272 0.01010 Std-jackknife 0.00200 0.01268 0.01014 Vi är intresserade av att beräkna den nedre gränsen i ett 95 % konfidensintervall till våra estimerade r-värden. Vi har i kapitlet innan fått fram tre olika formler för standardavvikelsen till rij . Vi ska nu bedöma vilken som är bäst lämpad för vårt problem. Med hjälp av bootstrap-simuleringen fick vi 1000 bootstrap-sampel för varje LD-mått inom varje stickprovsstorlek. För att få en uppfattning om hur bootstrap-sampelfördelningen ser ut för ett visst LD-mått kan man titta på histogrammet för rij över de 1000 bootstrap-samplen. FREQ UENCY 1000 900 800 700 600 FREQ UENCY 190 FREQ UENCY 190 180 180 170 170 160 160 150 150 140 140 130 130 120 120 110 110 100 100 90 90 80 80 70 70 500 400 60 60 300 50 50 40 40 200 30 30 20 20 100 10 10 0 0 0 1 0. 375 0. 400 0. 425 0. 450 0. 475 0. 500 0. 525 0. 550 0. 575 0. 600 0. 625 0. 650 0. 675 0. 700 0. 725 0. 613 0. 638 0. 663 0. 688 0. 713 0. 738 0. 763 0. 788 0. 813 0. 838 0. 863 0. 888 0. 913 0. 938 0. 963 0. 988 r _48 M I DPO I NT r _34 M I DPO I NT r _23 M I DPO I NT Histogrammen som visas ovan är för följande LD-mått, SNP 2-3, SNP 3-4 och SNP 4-8 i ordning från vänster. Stickprovsstorleken, n = 50 personer, är densamma för alla histogrammen. Nedan visas histogrammen för samma LD-mått, men med stickprovsstorlek n = 100 personer. FREQ UENCY 1000 900 FREQ UENCY 200 FREQ UENCY 190 190 180 180 170 170 160 160 800 150 150 140 140 700 130 130 120 120 600 110 110 100 100 500 90 90 80 80 400 70 70 60 60 300 50 50 40 40 200 30 30 20 20 100 10 10 0 0 0 0. 43 0. 45 0. 47 0. 49 0. 51 0. 53 0. 55 0. 57 0. 59 0. 61 0. 63 0. 65 0. 67 0. 69 0. 758 0. 773 0. 788 0. 803 0. 818 0. 833 0. 848 0. 863 0. 878 0. 893 0. 908 0. 923 0. 938 0. 953 0. 968 r _34 M I DPO I NT r _48 M I DPO I NT 1 r _23 M I DPO I NT Fyra av de sex histogrammen liknar en normalfördelning, så man skulle kunna beräkna de enkelsidiga 95 % konfidensintervallen med hjälp av normalfördelningskvantilen 1.64. Alla bootstrap-sampelfördelningar liknar dock inte normalfördelningen, se t ex. histogrammen för r23 . Detta par av SNP:ar har mycket hög LD. Bootstrap-metoden ger för det största 29 stickprovet r23 = 0.99660 och för de tre mindre stickproven r23 = 1.0 . Beräkningar på de ursprungliga stickproven och jackknife-samplen ger samma resultat förutom för det största stickprovet då r23 = 0.99653 . För en sådan SNP-kombination vars r-värde ligger mycket nära eller antar 1.0, är fortsatta beräkningar av standardavvikelsen oftast ointressanta, eftersom det inte existerar någon variation om rij = 1.0 . Därför utesluter vi inte normalfördelningskvantilen i våra fortsatta beräkningar av den nedre gränsen till det 95 % konfidensintervallet för rij . Det skulle även vara önskvärt att använda jackknife-standardavvikelser vid beräkningarna av den nedre gränsen, eftersom den simuleringsmetoden är programmeringsmässigt lättare och effektivare än bootstrap-simuleringen. För att få en uppfattning om man kan använda sig av jackknife-standardavvikelsen och normalfördelningskvantilen 1.64 vid beräkning av den nedre gränsen, trots att bootstrap-sampelfördelningen för rij inte alltid är normalfördelad. Vi jämför därvid resultatet vi får av våra beräkningar med den femte percentilen i motsvarande bootstrap-sampelfördelning. Tabellerna nedan visar dessa jämförelser för de tre minsta stickprovsstorlekarna. Det är ingen idé att göra detta för SNP 2-3 eftersom r23 = 1.0 , dvs. det existerar inte någon variation. Tabell 15: SNP 3-4 Stickprovsstorlek 50 100 150 Tabell 16: SNP 4-8 Stickprovsstorlek 50 100 150 Nedre gräns beräknad m.h.a jackknife-std och 1.64 0.4478 0.4814 0.4791 Nedre gräns beräknad m.h.a jackknife-std och 1.64 0.7630 0.8186 0.8353 Bootstrapfördelningens 5:e percentil 0.4485 0.4791 0.4765 Bootstrapfördelningens 5:e percentil 0.7676 0.8187 0.8378 Av dessa resultat att döma kan man använda sig av jackknife-standardavvikelsen och normalfördelningenskvantilen 1.64 vid beräkningarna av den nedre gränsen för rij , eftersom skillnaderna mellan den femte percentilen i bootstrap-fördelningen och den nedre gränsen är små. 6.2. Vid vilket n kan man överväga att endast genotypa en SNP? Man vill gärna på ett tidigt stadium, t ex. efter att ha genotypat 30 personer, kunna finna par av SNP:ar som har höga r-värden, så man kan bortse från en av SNP:arna i den fortsatta genotypningen, om man finner det lämpligt. Via en enkel grafisk lösning till problemet får vi ett snabbt svar på den frågan. (Se diagram 8). Den nedre gräns för rij som avgör när det är onödigt att fortsätta genotypa båda SNP:arna i ett par av SNP:ar kallar vi för d. För de par av SNP:ar vars nedre gräns överstiger eller är lika 30 med d, dvs. rij − 1.64 * Std jack (rij ) ≥ d , kan man bortse från en av de två SNP:arna i fortsättningen. Som vi har visat ovan kan den nedre gränsen i det 95 % konfidensintervallet för rij beräknas med hjälp av rij − 1.64 * Std jack (rij ) . Vi har satt d = 0.80, vilket ger oss följande. rij − 1.64 * Std jack (rij ) = 0.80 Vårt uttryck för jackknife-standardavvikelsen kan skrivas om till Std jack (rij ) = k n , där k är en konstant och n antalet personer i studien. Vi har alltså en funktion för jackknifestandardavvikelsen som beror av n. En regressionsanalys gjordes för att skatta konstanten k. (Se bilaga 4.) En brytpunkt c för rij kan räknas fram med avseende på d = 0.80. Om rij antar ett högre värde eller är lika med denna brytpunkt kan man överväga att bortse från en SNP i det paret vid den fortsatta genotypningen. rij ≥ 0.80 + 1.64 * k n =c En graf över c-värdena gjordes med data hämtade för de fyra stickprovsstorlekarna n = 50, 100, 150 respektive 952 för ett par av SNP:ar som gav ett högt LD-mått ( r48 = 0.90 ) och för ett par av SNP:ar som gav ett lågt LD-mått ( r34 = 0.58 ). Dessa jämfördes sedan för att se om hög eller låg LD gav någon märkbar skillnad på c-värdena. Resultatet visas i diagrammet nedan. Diagram 7: Graf över brytpunkten c för hög och låg LD vs antalet personer 1,00 0,95 hög LD 0,90 r låg LD 0,85 0,80 0,75 0 200 400 600 800 1000 antal personer Här kan man se att det inte finns någon avgörande skillnad för c mellan hög och låg LD. För att få en bättre graf för c genererades 1000 standardavvikelser i SAS (se bilaga 5) med hjälp av formeln Std jack (rij ) = k n . Detta resulterade i en jämnare graf över c. Se diagram 8. 31 r Diagram 8: Förfinad graf för brytpunkten c vs antalet personer 0,93 0,92 0,91 0,90 0,89 0,88 0,87 0,86 0,85 0,84 0,83 0 50 100 150 200 250 300 350 antal personer Detta diagram ger snabbt och enkelt ett svar på om man kan överväga att bortse från en SNP i ett par av SNP:ar i den fortsatta genotypningen. Det är bara att läsa av kurvan för c för ett givet n och se om r-värdena ligger över eller under kurvan. Ligger r-värdet över eller exakt på kurvan för c kan man, om man finner det lämpligt, bortse från en av SNP:arna vid den fortsatta genotypningen. 32 7. Diskussion Som nämndes tidigare i kapitel 5.4.3 kan jackknife-metoden vara mindre lämplig att tillämpa på icke-linjära statistikor. Det kopplingsmått vi har valt att beräkna LD med är en kvot med fyra variabler. Trots detta visar det sig att jackknife-metoden ger minst lika bra skattning av ^ standardavvikelsen som bootstrap-metoden. Kanske är det så att uttrycket för R är någorlunda linjärt i de områden vi är intresserade av, dvs. värden nära 1 och –1. Anledningen till att vi har valt att använda jackknife-standardavvikelsen i våra beräkningar av de enkelsidiga 95 % konfidensintervallen är att jackknife-metoden, i vårt fall, ger så pass enkla beräkningar, vilket medför att den är programmeringsmässigt effektivare än bootstrapmetoden. Diagram 8 i slutet av kapitel 6.2 bör användas med en viss försiktighet. De konfidensintervall vi beräknar är till 95 % säkra, så det finns 5 % risk att få med par av SNP:ar som inte har tillräcklig hög LD om man testar ett stort antal par av SNP:ar. Det finns även en risk att styrkan i testen sänks om man testar sina par av SNP:ar vid för många olika stickprovsstorlekar. Man bör använda sig av sekventiella test om man vill testa vid olika stickprovsstorlekar för att få korrekt resultat. Ett problem som vi stötte på under arbetets gång var att det inte finns någon given ^ variansformel till LD-måttet R . Den variansformel som är angiven på sidan 15, sats 5.1, gäller vid oberoende, men ordet oberoende betyder inte här det vi i vanliga fall menar med ^ oberoende, ty då skulle R vara lika med 0 och inte förekomma i variansuttryckt för R . Här förekommer ett annat oberoendebegrepp, där man i stället för oberoende borde välja att ^ använda sig av ett lämpligare uttryck som inget samband. Om R har observerats till 0 säger man att inget samband råder, men det behöver inte betyda att R = 0 dvs. att vi har stokastiskt oberoende. Slutsatsen av detta blir att vi kan säga att variansformeln gäller för små värden på ^ ρ . Vi kunde inte nöja oss med detta utan behövde en allmän variansformel till R , som kunde ge oss en god skattning av variansen för höga värden på ρ . I kapitel 5.3 härleder vi en ^ ^ variansformel till R med hjälp av Taylorutveckling av R och Gauss-approximationsformel för variansen. Denna variansformel (5.9) visar sig vara bäst lämpad för höga ρ , som i vårt fall var önskvärt. I detta examensarbete har vi studerat LD mellan par av SNP:ar. En fortsättning på detta arbete skulle vara att studera LD mellan ett större antal SNP:ar, t ex. tre och tre eller fyra och fyra. Antalet haplotyper ökar då fler SNP:ar tillkommer, t. ex. studerar man SNP:ar tre och tre ger det 8 stycken möjliga haplotyper. Detta ger mer avancerade beräkningar än de som har visats i detta examensarbete. Det kan i vissa fall hända att en haplotyp inte förekommer i en population för att den är så ovanlig. Så är även fallet i vår studiepopulation. I kapitel 4, tabell 7, kan man se att för tre par av SNP:ar är en av de fyra möjliga haplotyperna inte observerad i studiepopulationen. 33 8. Referenser [1] Blume, Lawrence, David Easley, and Maureen O’Hara, Market statistics and technical analysis: the role of volume, Journal of Finance, XLIX, (1994), No.1, p. 153-181. [2] Efron Bradley, The Jackknife, the Bootstrap and Other Resampling Plans, Society for Industrial and Applied Mathematics: Bristol, (1985) [3] Efron Bradley, Tibshirani Robert J., An Introduction to the Bootstrap, Chapman & Hall: New York, (1993) [4] Griffiths Anthony J. F., Lewontin Richard C., Miller Jeffrey H. & Suzuki David T., An Introduction To Genetic Analysis, third edition, W. H. Freeman and Company: New York, (1986) [5] Kendall & Stuart, The Advanced Theory of Statistics, fourth edition, Vol 2, Charles Griffin & Company Limited: London, (1979), p. 569-671. [6] Read Andrew P. & Strachan Tom, (1999), Human Molecular Genetics 2, second edition. [7] Zethelius Björn, Proinsulin and Insulin Sensitivity as Predictors of Type 2 Diabetes Mellitus and Coronary Heart Disease, Uppsala Universitet: Uppsala, (2003) [8] Darvasi Ariel, Kokoris Mark, Kuypers Jane & Shifman Sagiv, Linkage Disequilibrium Patterns of the Human Genome Across Populations, Human Molecular Genetics 2003, Vol. 12, No 7. [9] Dawson Elisabeth & Abecasis Gonçalo R. et al., A First-Generation Linkage Disequilibrium Map of Human Chromosome 22, Nature 2002, Vol 418, No 6897, p. 465-568. [10] Excoffier Laurent & Slatkin Montgomery, Maximum-Likelihood Estimation of Molecular Haplotype Frequencies in a Diploid Population, Mol. Biol. Evol. 1995, 12(5):921-927. [11] Jorde L.B., Linkage Disequilibrium and the Search for Complex Disease Genes, Genome Research 2000, Vol 10, Issue 10. [12] Pritchard Jonathan K. & Przeworski Molly, Linkage Disequilibrium in Humans: Models and Data, American Journal of Human Genetics 2001, 69:1-14. [13] http://genomics.phrma.org/lexicon/l.html 2003-03-20 [14] http://www.wikipedia.org 2003-08-06 [15] http://www.accessexcellence.org/AB/GG/meiosis.html 2003-10-08 [16] http://las.perkinelmer.com/content/snps/genotyping.asp 2003-10-08 34 [17] http://www.hyperdictionary.com/dictionary 2003-10-14 [18] http://helios.bto.ed.ac.uk/bto/glossary/ 2003-10-08 [19] http://www.ncbi.nlm.nih.gov/About/primer/snps.html 2003-04-20 [20] http://www.pubcare.uu.se/ULSAM/ 2003-10-16 [21] http://www.mapleapps.com/ 2003-10-20 [22] http://www.sas.com 2003-10-20 35 9. Genetisk ordlista adenin: Se bas. allel: En av flera olika former av en gen. Varje person ärver två alleler till varje gen, en allel från varje förälder. Dessa alleler kan vara likadana eller skilja sig från varandra. [12] association: I genetiska studier där man studerar härkomst hos människan och i sambandsstudier förekommer ofta jämförelser av allelfrekvenser för ett marker-locus mellan en sjukdomspopulation och en kontrollpopulation. När statistiskt signifikanta skillnader mellan frekvenserna för en eller flera alleler uppträder mellan en kontroll- och sjukdomspopulation, säger man att sjukdomen och allelen eller allelerna är i association med varandra. [12] autosom: Varje kromosom som inte är inblandad i bestämmandet av vilket kön organismen ska ha. Människan har 22 par av autosomer i varje cell. [12] bas: En av molekylerna - adenin, guanin, cytosin, tymin eller uracil - vilka formar delar av strukturen för DNA- och RNA-molekylen. Ordningen av baser i en DNA-molekyl bestämmer strukturen hos proteinet som DNA:t kodar för. [12] baspar (bp): Två kompletterande nukleotidbaser som är sammansatta av en kemisk bindning. Dessa två slingor av DNA-molekylen hålls ihop med hjälp av basparen och är formad som en dubbel spiral. Basen adenin bildar par med tymin och cytosin bildar par med guanin. [12] centromer: Den ihopsnörda delen nära mitten av en mänsklig kromosom. I denna del förenas de båda syster-kromatiderna. Se kromatid. [17] cytosin: Se bas. di-allelt locus: Ett locus med två alleler, dvs. det finns två varianter av ett locus som skiljer sig på något sätt, t.ex. en polymorfi som en SNP. diploid: En fullständig uppsättning av genetiskt material, som innehåller par av kromosomer från varje förälder. De flesta djurs celler bortsett från könscellerna har en diploid uppsättning kromosomer. Det mänskliga genomet har 46 kromosomer. Jämför med haploid. [12] DNA (deoxyribonucleic acid): Molekyl som innehåller genetisk information. DNA är en dubbelslingad spiral sammanhållen av bindningar mellan par av nukleotider. Se bas och baspar. [12] dominant allel: En allel, vid ett bestämt locus, som kommer att forma eller påverka fenotypen av en organism oavsett karaktären på den andra allelen vid locuset. Till exempel är allelen för brun ögonfärg dominant gentemot allelen för blå ögonfärg, så en person som ärver allelen för blå ögonfärg från en förälder och en allel för brun ögonfärg från den andra föräldern kommer nästan alltid ha bruna ögon. Se genetiskt uttryck och jämför med recessiv allel. [12] 36 fenotyp: En uppsättning av observerade fysikaliska karaktärer hos en individuell organism. En enskild karaktär kan refereras till som en ”egenskap”, även om en enskild egenskap ibland också kan kallas för en fenotyp. Till exempel kan blont hår kallas för egenskap men också fenotyp, vilket även fetma kan. En fenotyp kan vara resultatet av många faktorer, inkluderat en individs genotyp, omgivning och livsstil, samt samspel mellan dessa faktorer, dvs. det observerade uttrycket för en genotyp. Fenotypen kan både uttryckas fysikaliskt, biokemiskt och fysiologiskt. [12] gen: En bit DNA som kodar för ett speciellt protein, eller i vissa fall en funktionell eller strukturell RNA-molekyl. [12] genetisk kartläggning: En karta över ett genom vilken visar de relativa positionerna av generna och/eller markörerna på kromosomerna. [12] genetisk polymorfism: En skillnad i DNA-sekvens bland individer, grupper eller populationer (t. ex. en genetisk polymorfism kan ge upphov till blå ögon kontra bruna ögon eller rakt hår kontra lockigt hår). Genetisk polymorfism kan vara ett resultat av en ändringsprocess eller kan ha orsakats av andra yttre faktorer såsom virus eller strålning. Om det visar sig att en skillnad i en DNA-sekvens bland individer kan associeras med en sjukdom, kallas den vanligtvis för mutation. Variationer i DNA-sekvenser som man vet har uppstått genom påverkan från yttre faktorer kallas generellt för mutationer istället för polymorfier. [12] genetiskt uttryck: Processen som konverterar en gens kodade information till befintliga och opererande strukturer i en cell. Uttryckta gener inkluderar de som är kopierade till mRNA och sedan översatta till protein och de som är kopierade till RNA men inte översätta till protein. [16] genom: Allt genetiskt material i kromosomerna av en speciell organism. Dess storlek är generellt angiven som det totala antalet baspar. [12] genotyp: Det speciella genetiska mönster som ses i en persons DNA. En genotyp används vanligtvis till att hänvisa till ett särskilt par av alleler som en person har vid en viss position i genomet. Jämför med fenotyp. [12] guanin: Se bas. haploid: En cell som innehåller halva genetiska komplementet till en somatisk cell, dvs. halva antalet kromosomer. Exempel: könscellerna, ägget och spermierna. [12] haplotyp: Den uppställda linjära ordningsföljden av alleler på en kromosom. Haplotypanalyser är användbara när man ska identifiera rekombinationshändelser. [12] heterozygot: En diploid organism med två bestämda alleler vid ett särskilt locus under analys. I detta fall är locuset tänkt att vara heterozygot. [12] homolog: En medlem i ett par av homologa kromosomer. [17] homologa kromosomer: Medlemmar av ett par av identiska kromosomer som punkt för punkt paras ihop under meiosis. Kromosomer som bildar par med varandra vid meiosis eller kromosomer i olika arter som har bibehållit det mesta av samma gen under deras evolution från en liknande förfader.[17] 37 homozygot: En individ som har ett homozygot genpar. En diploid eller en polyoid med identiska alleler vid ett locus. [17] karyotyp: En fotomikrografik över en individs kromosomer arrangerade i en standardform som visar nummer, storlek och form på varje kromosomtyp. [12] kromatid: En kromatid utgör en del av en kromosom efter att den har förenat sig för delningsprocesserna mitosis eller meiosis. Varje kromosom består av två exakt identiska systerkromatider. Efter att de har dragits isär av mitotisk ”axel”, kallas kromatider för kromosomer. Systerkromatider är förenas i en punkt som kallas för centromer. [13] kromosom: I en cell är DNA indelad i strukturer som kallas kromosomer. Kromosomer är tillräckligt stora så att man kan se dem i ett mikroskop. I människan består alla celler utom könscellerna av 46 kromosomer, 22 par av autosomer och antingen ett par av X- kromosomer (hos kvinnan) eller en X-kromosom och en Y-kromosom (hos mannen). I varje kromosompar är en kromosom nedärvd från en individs far och en från dess mor. [12] kromosomal markör: En allel som har ett välkänt fenotypisk uttryck och locus. Används som en referenspunkt vid kartläggningen av en ny genetisk mutant. [12] könskromosomer: X- och Y-kromosomerna hos människan bestämmer könet hos en individ. Kvinnor har två stycken X-kromosomer i en diploid cell och mannen har en Xkromosom och en Y-kromosom. Könskromosomerna utgör det 23:e kromosomparet i en karyotyp. Se detta ord. [12] linkage (koppling): Linkage hänvisar till att vissa gener tenderar att nedärvas tillsammans. Två gener sägs vara kopplade (linked) om de ofta nedärvs tillsammans, oavsett deras närhet på en kromosom. Se marker. [12] linkage disequilibrium: Linkage disequilibrium kallas ofta “allelic association”. När alleler vid två distinkta loci förekommer i könscellerna mer frekvent än förväntat, givet de kända allelfrekvenserna och rekombinationsandelen mellan de aktuella loci, sägs allelerna vara i linkage disequilibrium (kopplingsobalans). Bevis för linkage disequilibrium kan vara till hjälp vid kartläggning av gener som orsakar sjukdomar, eftersom dessa oftast ligger väldigt nära varandra. [12] locus (pl. loci): Positionen för en gen på en kromosom eller en annan kromosommarkör, även DNA i denna position. Användningen av locus är ibland begränsad till vissa regioner av DNA, som är uttryckt. Se genetiskt uttryck. [12] marker: En sekvens av baser vid en fysiskt given unikt plats på genomet, vilket varierar tillräckligt mellan individer så att nedärvningsmönstret kan följas genom familjer och/eller kan användas vid särskiljning av celltyper. En markör kan vara en del av en gen, men behöver inte vara det. Markörer är fundamentala vid studier av härkomst och genetisk kartläggning för att hjälpa forskarna att minska ned de möjliga positionerna för nya gener och att upptäcka samband mellan genetiska mutationer och sjukdomar. [12] meiosis: Processen av två celldelningar av könsceller som sker i följd hos diploida stamfäder. Resultatet av meiosis ger fyra stycken dotterceller och var och en av dessa dotterceller har en haploid uppsättning av kromosomer. [12] 38 mitosis: Processen för kärndelning i celler som skapar dotterceller som är genetiskt identiska med varandra och med föräldercellen. [12] mutation: En förändring, ett borttagande eller en omplacering i en DNA-sekvens som kan leda till syntes av ett förändrat inaktivt protein eller oförmåga att producera proteinet. Om en mutation förekommer i en embryocell så är det en ärftlig förändring som kan ärvas från generation till generation. Mutationer kan också förekomma i somatiska celler, men dessa nedärvs inte i traditionell mening utan endast till sina dotterceller. [12] nukleotid: Byggstenen till nukleinsyrorna, som t. ex. DNA-molekylen. En nukleotid består av en av de fyra baserna adenin, cytosin, guanin och tymin, som i sin tur är bunden till en fosfat-sockergrupp. I DNA är sockergruppen en deoxiribo. I RNA, som är en DNA-relaterad molekyl som hjälper till med att transportera genetisk information från gen till protein, så är sockergruppen en ribo och basen tymin är utbytt mot basen uracil. Varje grupp om tre nukleotider i en gen kallas för kodon. Vid proteinsyntesen avläses varje kodon till en specifik aminosyra. Nukleinsyra är en lång kedja av sammansatta nukleotider och kan ibland kallas för en polynukleotid. [12] organism: En levande individ vars fysiologiska funktioner utförs av ”små delar” eller organ, (t ex. ett hjärta eller en lever), som har skilda funktioner men som inbördes är beroende av varandra. [12] polymorfism: Se genetisk polymorfism. protein: En biologisk molekyl bestående av många aminosyror som är sammansatta av peptidbindningar. Sekvensen av aminosyror i proteinet bestäms av sekvensen av nukleotiderna i DNA-molekylen. Allteftersom kedjan av aminosyror blir syntetiserade, viks den ihop till en högre grad av strukturerad form, t. ex. dubbelspiraler. Proteiner är nödvändiga för att bygga upp strukturen, funktionen och regleringar av celler, vävnader och andra organ i kroppen. [12] recessiv allel: En allel som endast kommer att ge resultat i en speciell fenotyp om dess motpart också är recessiv eller om det inte existerar någon motpart. Autosomal recessiv oordning framkallad hos individer som ärver två liknande kopior av en gen lokaliserade på en av autosomerna. När en recessiv gen associerad med en sjukdom förekommer på vissa platser på X-kromosomen (hemofilia eller blödarsjukan är en sådan sjukdom) kallas det ”X-linkage recessive disorder” (X-kopplad recessiv sjukdom). X-linkage recessive disorder kan förekomma oftare hos män än hos kvinnor, eftersom män bara ärver en kopia av genen (de har endast en X-kromosom). [12] rekombinant: Resultatet av en crossover i en dubbel heterozygot förälder så att alleler vid två loci som finns på homologer mitt emot varandra förs ihop på samma homolog. Termen används för att beskriva såväl kromosomen som den organism där de sammanträffat. [12] rekombinationsandelen (θ): Frekvensen av crossing-over mellan två loci. Estimat av rekombinationsandelen mellan två loci som är mindre än 0.50 är förenlig med loci som är länkade med varandra. Estimat av rekombinationsandelen som är lika med 0.50 är förenliga med loci som icke är länkade med varandra. I teorin ska rekombinationsandelen mellan två 39 loci inte överstiga 0.50, men estimat > 0.50 för två loci kan påvisa en högre rekombinogenikarea eller fel i data. När θ = 0 så är markören och sjukdomen på samma locus. [12] SNP (single nucleotide polymorphism): Variation i en DNA-sekvens som uppstår när en enkel nukleotid (A, T, C eller G) bytts ut mot en annan nukleotid i genom-sekvensen. [16] tymin: Se bas. uracil: Se bas. överkorsning (crossing-over): Brott i en kromosom från modern och i en kromosom från fadern under meiosis, då utbyte av motsvarande DNA-sektioner sker innan kromosomerna förenar sig igen. Denna procedur kan resultera i att alleler byter plats med varandra mellan kromosomer. Jämför med rekombination. [12] 40 Bilaga 1. Haplotyptabeller för de tre mindre stickproven Tabell 17. Haplotyper för stickprovet med de 50 första personerna. SNP nr a b c d 2-3 69 0 0 2-4 30 39 31 2-8 31 38 31 2-9 46 23 31 3-4 30 39 31 3-8 31 38 31 3-9 46 23 31 4-8 58 3 4 4-9 48 13 29 8-9 50 12 27 31 0 0 0 0 0 0 35 10 11 N 100 100 100 100 100 100 100 100 100 100 61 0 0 0 0 0 0 73 17 17 N 200 200 200 200 200 200 200 200 200 200 Tabell 19. Haplotyper för stickprovet med de 150 första personerna. SNP nr a b c d 2-3 210 0 0 90 2-4 91 119 90 0 2-8 95 115 89 1 2-9 150 60 87 3 3-4 91 119 90 0 3-8 95 115 89 1 3-9 150 60 87 3 4-8 174 7 10 109 4-9 143 38 94 25 8-9 145 39 92 24 N 300 300 300 300 300 300 300 300 300 300 Tabell 18. Haplotyper för stickprovet med de 100 första personerna. SNP nr a b c d 2-3 139 0 0 2-4 58 81 61 2-8 62 77 61 2-9 99 40 61 3-4 58 81 61 3-8 62 77 61 3-9 99 40 61 4-8 115 4 8 4-9 96 23 64 8-9 100 23 60 41 Bilaga 2. Resultatet av Taylorutvecklingen m.a.p. de första partiella derivatorna för ^ ^ R i Maple R = ( pra prd − prb prc ) /(( pra + prb )( pra + prc )( prb + prd )( prc + prd ))1 / 2 där pra , prb , prc , prd är de relativa haplotypfrekvenserna i stickprovet. 42 Bilaga 3. Konstanterna Ca, Cb, Cc och Cd i uttrycket för variansen för ^ R Ca = Cb = Cc = Cd = 43 Bilaga 4. SAS-utskrift av resultatet från regressionsanalysen Konstanten k i Std jack (rij ) = k n skattas m.h.a. regressionsanalys i SAS. NOTE: No intercept in model. R-Square is redefined. Analysis of Variance Source DF Model Sum of Squares Mean Square F Value Pr > F 1 Error 0.00508 0.00508 894.23 <.0001 3 0.00001705 0.00000568 Uncorrected Total 4 0.00510 Root MSE 0.00238 R-Square 0.9967 Dependent Mean 0.03196 Adj R-Sq 0.9955 Coeff Var 7.45996 Parameter Estimates Variable x 44 DF 1 Parameter Estimate 0.36712 Standard Error t Value 0.01228 29.90 Pr > |t| <.0001 Bilaga 5. 1000 standardavvikelser genererade m.h.a. SAS libname nyadata 'c:\Karin\nyadata'; data b; input n se; cards; 50 0.054636704 100 0.034993294 150 0.028069147 952 0.010143736 ; run; data a; set b; x=n**(-1/2); run; proc reg; model se=x/noint; run; data c; do N=1 to 1000; se=0.36712*N**(-1/2); output; end; run; Med hjälp av ett LD-måtts jackknife-standardavvikelser och stickprovsstorlekarna 50, 100, 150 och 952 gjordes en regressionsanalys för att estimera konstanten k i Std jack (rij ) = k n . Resultatet av regressionsanalysen finns att läsa i bilaga 4. Vi har nu uttryckt jackknifestandardavvikelsen som en funktion av stickprovsstorleken n. De 1000 standardavvikelserna genereras genom att låta n gå från 1 till 1000. Varje n sätt in i uttrycket för standardavvikelsen, Std jack (rij ) = k n och 1000 standardavvikelser har skapats. 45