Human Molekylärgenetik Del 2 – Identifiering av riskgener för komplexa sjukdomar ANDERS MÄLARSTIG, molekylärgenetiker på enheten för aterosklerosforskning, Centrum för Molekylärmedicin, Karolinska Institutet, Solna [email protected] Att identifiera och karakterisera humana sjukdomsgener • Kliniska frågeställningar vid molekylärgenetiska studier av komplex sjukdom • Att designa studier för komplex sjukdom • Bioinformatik • Små och storskalig SNP analys • Statistiska metoder (case-control, kvantitativ fenotyp) • Funktionella studier av genetisk variation • Farmakogenetik • Genetiska test av komplexa anlag • Etiska aspekter av genetiska test Vetenskaplig frågeställning / hypotes Design av experimentell eller klinisk studie Bioinformatik Genotypning Statistisk analys Funktionella studier Design av genetiska test Venös trombos (blodpropp) • Allvarligt tillstånd där blodflödet i en ven hindras • Hög ålder, cancer, p-piller och kirurgiska ingrepp är vanliga riskfaktorer • Genetiska riskfaktorer i factor 5, protrombin, protein C och S generna, vilka ingår i reglering av koagulation – SNPs i 5 andra gener har visat association till sjukdomen • Heritabilitet över 50 % Kandidatgen • Utgångspunkt i kända biologiska sjukdomsmekanismer • Prövar en hypotes, men den är begränsad av befintlig biologisk kunskap om sjukdomen • Enkel epidemiologisk statistik kan användas • Många SNPs inom en liten region kan bestämmas för att maximera genetisk information Frågeställningar • Funktionella SNPs i genen för ”Tissue factor” skulle troligen spela roll för risken att drabbas av venös trombos, eftersom tissue factor startar blodets koagulation • Ärftligheten av koncentrationer av tissue factor på cellmembran och i blodet är hög • Stora skillnader i koncentrationer av tissue factor mellan individer, men små skillnader i samma individ vid olika mättillfällen, trots års mellanrum mellan mätningar Vilka SNPs finns i tissue factor genen? Primary Transcript rs592435 Exon 4 rs610277 Exon 5 rs3917642 rs3917641 rs958587 Exon 3 rs762484 rs3917643 Exon 1 Exon 2 rs1034363 Exon 6 rs1144300 rs3354 -2695 rs644530 -9914 rs698942 F3 Gene NCBI dbSNP refSNP ID: rs3354 Organism: human (Homo sapiens) Molecule Type: Genomic Created/Updated in 36/127 build: Allele SNP: Variation Class: single nucleotide polymorphism Alleles: C/T Ancestral Allele: C Map to Genome 36.2 Build: GeneView via analysis of contig annotation: F3 coagulation factor III (thromboplastin, tissue factor) Click to see [all] [cSNP] [has frequency] [double hit] [haplotype tagged] variations associated with this gene. …….GTTAAAAATT AAAACTTGGA ATTGGTTGTA GTACCATT C/T GTTACATTTC AAAGTGACTA ATGCTGATGT CAAAACCAGA……. Allel och genotypfrekvenser ss# ss1882765 Individual Chrom. Group Sample Cnt. Population Source C/C C/T T/T HWP C T 0.710 0.290 CEPH 184 AF HapMap-CEU European 120 IG 0.500 0.483 0.017 0.050 0.742 0.258 HapMap-HCB Asian 90 IG 0.267 0.578 0.156 0.254 0.556 0.444 HapMap-JPT Asian 88 IG 0.295 0.545 0.159 0.479 0.568 0.432 0.633 0.283 0.083 0.150 0.775 0.225 0.554 0.446 HapMap-YRI African 120 IG CHMJ Asian 74 IG Prediktion av vilka SNPs som kan påverka funktion • PolyPhen - Predikterar hur en aminosyraförändring påverkar proteinets hydrofobicitet, isolelektriska punkt och struktur • Ensembl – Sammanfogar information från ett hundratal databaser för regioner i genomet • Fylogenetisk footprinting (ECR-browser) –undersöker om SNPn ligger i en region som är evolutionärt konserverad genom att jämföra ortologa sekvenser i andra arter • Transfac –undersöker vilka transkriptionsfaktorer som potentiellt kan binda i regionen där SNPn är positionerad • ESEfinder –söker potentiella splice sites Splice-sites The first 400 basepairs in the tissue factor promoter and potential transcription factor binding sites Samvariation mellan SNPs (www.hapmap.org) D’-måttet bäst sämst R2-måttet 1 0 Linkage disequilibrium i hund och människa Studiedesign • • • • Fall-kontroll (enklast) Populationsbaserad prospektiv studie Prospektiv patientstudie Friska frivilliga tex. för en kvantitativ fenotyp som är relaterad till sjukdomen (koncentration av tissue factor protein i blodet) Urval av fall och kontroller Rekrytering av patientgrupp via klinik Rekrytering av matchade friska individer via populationsregister Venöst blodprov för att ta DNA och blodplasma Exkludering av patienter som inte uppfyller fördefinierade kriterier, Längd, vikt, ålder, livsstilsvanor dokumenteras Databas Bestämning av plasmaprotein i blodprover Upprättande av biobank Framrening av DNA från blod Teknologier för SNP genotypning • • • • • Pålitliga Snabba Kostnadseffektiva Robotiserade –mindre manuellt arbete Flexibilitet vid design av metod Litet urval av genotypningsmetoder Traditionella metoder RFLP Allelspecifik amplifiering Sangersekvensering Moderna metoder Realtids PCR (Taqman och Lightcycler) Chip-teknik (Primer extension) Massive parallell sequencing (Solexa, 454-sequencing) RFLP Elektroforesbaserad detektion Allelspecifik amplifiering Taqman-probe Realtids PCR Alleldiskriminering med realtids-PCR CC CT TT Statistisk metodik 1, Hardy-Weinberg Equilibrium (kvalitetskontroll av genotypning) Hardy-Weinberg observed Controls AA Aa aa 146 129 28 expected 146,238 128,523 28,238 AA Aa aa 161 155 49 155,842 165,316 43,842 SUM Patients SUM p-value (1-tailed) chi-square 0,0004 0,0018 0,0020 0,004171869 0,9485 check result 0,1707 0,6438 0,6069 1,421413249 0,233171 check result p-värde >0.05 ger att fördelningen av genotyper av vår SNP är inom Hardy-Weinberg equilibrium Statistisk metodik 2 Allele Frequency rs3354 Kontroller Fall CC CT TT 182 CC CT TT 161 count C total frequency C 129 28 185 678 72,7% 253 730 65,3% 155 49 Räkna genotyper och frekvens av allel 1 och 2. Statistisk metodik 3 –homogenitetstest med chi-två fördelningen C T Total Kolumn Kontroller Observed 185 493 678 ChiTvåvärde Exp Total rad 438 227,09 502,91 970 1408 3,18 1,44 2,96 1,34 8,91 ChiTvåvärde Kritiskt värde p-value (1-tailed) Fall Exp Observed 210,91 253 467,09 477 730 3,841 0,0028 check result P-värde <0.05, alltså är fördelningen av allelerna är signifikant skilda i fall och kontroller. Högre frekvens av C allel i patientgruppen ger att: C allelen ökar risken för venös blodpropp. Identifiering av riskgen Från känd biologi Kandidatgen Genome-wide association Genotypning av ett stort antal SNPs spridda över genomet Genotypning av ett mindre antal SNPs Statistisk analys Statistisk analys Funktionella studier och bekräftande kliniska studier ATGCT A CT G CA 1 million CA GG C CA CG CT TC TG ATCGGG AT ATGCT C GCG TCATAT GG C Princip för genom-wide association GG C T ATGCC CT T C G G TAT GCAAATG CT TCGGG G A TG C C ATGCT TCATAT G TGT T AA GC C GCGCT 5000 T 10 1 • Genome-wide association prövar hypoteser som ännu inte formulerats • Fall-kontrollstudier, oftast med över 2000 individer • Chip tekniker som Affymetrix och Illumina • Helgenoms-chip för mellan 100k SNPs och 1M SNPs • Särskilda statistiska tekniker som beaktar att ett stort antal statistiska test görs Helgenomsstudier har identifierat flera sjukdomslokus senaste 2 åren bl.a. • TCF7L2 för typ-2 diabetes • Kromosom 9 p21 för hjärtinfarkt och typ-2 diabetes • Kromosom 6q23 och IRF5 genen för reumatoid artrit • 10q26 i den okända genen LOC387715 för grön starr • FTO genen för ökat body mass index • m.m. Molekylärgenetisk funktionalitet • Protein – mängd – aktivitet • aminosyrasekvens och struktur – post-translationella förändringar (tex fosforylering) – interaktion med andra protein – timing • Alla ovanstående förändringar på proteinet kan detekteras på transkriptionsnivå (mRNA). Exempel: Variationer IRF-5 genen Detektion av mRNA förändringar • Studier i rätt typ av cell under förhållanden som efterliknar sjukdomen • Long-range PCR och elektrofores kan detektera förekomsten av flera transkript (splice-varianter) • Realtids-PCR kan detektera hur mycket mRNA som finns i ett prov • Odling av celler, stopp av nysyntes av med ActinomycinD, detektion med realtids PCR (halveringstid för mRNA) • Jämföra exonsekvens i DNA med mRNA sekvens för allelisk obalans • Kloning av luciferas-reporter gene i en gens promotor kan visa skillnader i transkriptionseffektivitet för ena eller andra allelen Allelspecifikt mRNA uttryck G/C C/A Regulatory region Coding region Obalans av alleluttryck i mRNA G C mRNA C A Kaijzel et al Genes Immunity 2001;2:135-144 Kureeman et al Hum Mol Genetics 2004;13:1755-1762 mRNA VISION OM GENETISKA TEST Sjukdomsrisk Träningsråd Kostråd Läkemedel Komplexa sjukdomar –vanligaste dödsorsaken Träning och genomik • • • • • Sänkning av kolesterol Muskelmassa Syreupptagningsförmåga Hormonsystem Blodvolym Genetiska test forts. • Test för monogena sjukdomar är inte samma sak som test för komplexa anlag • Diagnos vs. riskbedömning • Ovanlig vs. vanlig • Erfarenhet om genetisk rådgivning för komplexa anlag finns från bedömningen av faktor 5 SNPn för risken för venös blodpropp och BRCA generna för bröstcancer GENETISKT TEST FÖR • Att tidigt kunna förutsäga sjukdomsrisk INVÄNDNINGAR • • • Kost och livsstil • Lägga upp träning • Effektivitet och biverkningsrisk av läkemedel • • • Hjälp att ta emot informationen behövs! Effektiva sätt att förhindra att sjukdomen bryter ut måste hittas! Kliniska prövningar om kostrekommendationerna på genetisk basis är effektivt behövs. Mer kunskap behövs. Kan användas begränsat idag för tex VKORC1 genen. Många studier görs i skrivande stund. Andra etiska aspekter runt genetiska test för att förutsäga framtida sjukdom • Finns tillräckliga vetenskapliga bevis för testet? • Vem vill veta? • Hjälper det att veta och hur drastiska är åtgärderna för att i så fall minska sjukdomsrisken? • Vill släktingar veta? • Vem äger den genetiska informationen? • Hur ska informationen om det egna DNAt skyddas?