Human Molekylärgenetik
Del 2 – Identifiering av riskgener för
komplexa sjukdomar
ANDERS MÄLARSTIG, molekylärgenetiker på enheten för aterosklerosforskning,
Centrum för Molekylärmedicin, Karolinska Institutet, Solna
[email protected]
Att identifiera och karakterisera humana
sjukdomsgener
• Kliniska frågeställningar vid molekylärgenetiska
studier av komplex sjukdom
• Att designa studier för komplex sjukdom
• Bioinformatik
• Små och storskalig SNP analys
• Statistiska metoder (case-control, kvantitativ
fenotyp)
• Funktionella studier av genetisk variation
• Farmakogenetik
• Genetiska test av komplexa anlag
• Etiska aspekter av genetiska test
Vetenskaplig frågeställning /
hypotes
Design av experimentell eller klinisk
studie
Bioinformatik
Genotypning
Statistisk analys
Funktionella studier
Design av genetiska test
Venös trombos (blodpropp)
• Allvarligt tillstånd där blodflödet i en ven hindras
• Hög ålder, cancer, p-piller och kirurgiska ingrepp
är vanliga riskfaktorer
• Genetiska riskfaktorer i factor 5, protrombin,
protein C och S generna, vilka ingår i reglering
av koagulation
– SNPs i 5 andra gener har visat association till
sjukdomen
• Heritabilitet över 50 %
Kandidatgen
• Utgångspunkt i kända biologiska
sjukdomsmekanismer
• Prövar en hypotes, men den är begränsad av
befintlig biologisk kunskap om sjukdomen
• Enkel epidemiologisk statistik kan användas
• Många SNPs inom en liten region kan
bestämmas för att maximera genetisk
information
Frågeställningar
• Funktionella SNPs i genen för ”Tissue factor”
skulle troligen spela roll för risken att drabbas av
venös trombos, eftersom tissue factor startar
blodets koagulation
• Ärftligheten av koncentrationer av tissue factor
på cellmembran och i blodet är hög
• Stora skillnader i koncentrationer av tissue factor
mellan individer, men små skillnader i samma
individ vid olika mättillfällen, trots års mellanrum
mellan mätningar
Vilka SNPs finns i tissue factor genen?
Primary Transcript
rs592435
Exon 4
rs610277
Exon 5
rs3917642
rs3917641
rs958587
Exon 3
rs762484 rs3917643
Exon 1 Exon 2
rs1034363
Exon 6
rs1144300
rs3354
-2695 rs644530
-9914 rs698942
F3 Gene
NCBI dbSNP
refSNP ID: rs3354
Organism:
human (Homo
sapiens)
Molecule Type: Genomic
Created/Updated in
36/127
build:
Allele
SNP:
Variation Class: single nucleotide
polymorphism
Alleles: C/T
Ancestral Allele: C
Map to Genome
36.2
Build:
GeneView via analysis of contig annotation: F3 coagulation factor III
(thromboplastin, tissue factor)
Click to see [all] [cSNP] [has frequency] [double hit] [haplotype tagged]
variations associated with this gene.
…….GTTAAAAATT AAAACTTGGA ATTGGTTGTA GTACCATT
C/T
GTTACATTTC AAAGTGACTA ATGCTGATGT CAAAACCAGA…….
Allel och genotypfrekvenser
ss#
ss1882765
Individual
Chrom.
Group
Sample
Cnt.
Population
Source
C/C
C/T
T/T
HWP
C
T
0.710
0.290
CEPH
184 AF
HapMap-CEU European
120 IG
0.500
0.483
0.017
0.050
0.742
0.258
HapMap-HCB Asian
90 IG
0.267
0.578
0.156
0.254
0.556
0.444
HapMap-JPT Asian
88 IG
0.295
0.545
0.159
0.479
0.568
0.432
0.633
0.283
0.083
0.150
0.775
0.225
0.554
0.446
HapMap-YRI
African
120 IG
CHMJ
Asian
74 IG
Prediktion av vilka SNPs som kan påverka
funktion
• PolyPhen - Predikterar hur en aminosyraförändring
påverkar proteinets hydrofobicitet, isolelektriska punkt
och struktur
• Ensembl – Sammanfogar information från ett hundratal
databaser för regioner i genomet
• Fylogenetisk footprinting (ECR-browser) –undersöker
om SNPn ligger i en region som är evolutionärt
konserverad genom att jämföra ortologa sekvenser i
andra arter
• Transfac –undersöker vilka transkriptionsfaktorer som
potentiellt kan binda i regionen där SNPn är positionerad
• ESEfinder –söker potentiella splice sites
Splice-sites
The first 400 basepairs in the tissue factor
promoter and potential transcription factor binding
sites
Samvariation mellan SNPs
(www.hapmap.org)
D’-måttet
bäst
sämst
R2-måttet
1
0
Linkage disequilibrium i hund och människa
Studiedesign
•
•
•
•
Fall-kontroll (enklast)
Populationsbaserad prospektiv studie
Prospektiv patientstudie
Friska frivilliga tex. för en kvantitativ fenotyp som
är relaterad till sjukdomen (koncentration av
tissue factor protein i blodet)
Urval av fall och kontroller
Rekrytering av patientgrupp via
klinik
Rekrytering av matchade friska
individer via populationsregister
Venöst blodprov för att ta DNA
och blodplasma
Exkludering av patienter som inte
uppfyller fördefinierade kriterier,
Längd, vikt, ålder, livsstilsvanor
dokumenteras
Databas
Bestämning av plasmaprotein i
blodprover
Upprättande av biobank
Framrening av DNA från blod
Teknologier för SNP genotypning
•
•
•
•
•
Pålitliga
Snabba
Kostnadseffektiva
Robotiserade –mindre manuellt arbete
Flexibilitet vid design av metod
Litet urval av genotypningsmetoder
Traditionella metoder
RFLP
Allelspecifik amplifiering
Sangersekvensering
Moderna metoder
Realtids PCR (Taqman och
Lightcycler)
Chip-teknik (Primer
extension)
Massive parallell sequencing
(Solexa, 454-sequencing)
RFLP
Elektroforesbaserad detektion
Allelspecifik amplifiering
Taqman-probe
Realtids PCR
Alleldiskriminering med realtids-PCR
CC
CT
TT
Statistisk metodik 1,
Hardy-Weinberg Equilibrium (kvalitetskontroll av
genotypning)
Hardy-Weinberg
observed
Controls
AA
Aa
aa
146
129
28
expected
146,238
128,523
28,238
AA
Aa
aa
161
155
49
155,842
165,316
43,842
SUM
Patients
SUM
p-value (1-tailed)
chi-square
0,0004
0,0018
0,0020
0,004171869 0,9485 check result
0,1707
0,6438
0,6069
1,421413249 0,233171 check result
p-värde >0.05 ger att fördelningen av genotyper av vår SNP är inom
Hardy-Weinberg equilibrium
Statistisk metodik 2
Allele Frequency
rs3354
Kontroller
Fall
CC
CT
TT
182
CC
CT
TT
161
count C
total
frequency C
129
28
185
678
72,7%
253
730
65,3%
155
49
Räkna genotyper och frekvens av allel 1 och 2.
Statistisk metodik 3
–homogenitetstest med chi-två fördelningen
C
T
Total Kolumn
Kontroller
Observed
185
493
678
ChiTvåvärde
Exp
Total rad
438
227,09
502,91
970
1408
3,18
1,44
2,96
1,34
8,91
ChiTvåvärde
Kritiskt värde
p-value (1-tailed)
Fall
Exp
Observed
210,91
253
467,09
477
730
3,841
0,0028
check result
P-värde <0.05, alltså är fördelningen av allelerna är signifikant skilda i fall
och kontroller. Högre frekvens av C allel i patientgruppen ger att: C allelen
ökar risken för venös blodpropp.
Identifiering av
riskgen
Från känd biologi
Kandidatgen
Genome-wide
association
Genotypning av ett stort antal
SNPs spridda över genomet
Genotypning av ett
mindre antal SNPs
Statistisk analys
Statistisk analys
Funktionella studier och bekräftande kliniska studier
ATGCT
A
CT
G
CA
1 million
CA
GG
C
CA
CG CT
TC TG
ATCGGG
AT
ATGCT
C
GCG
TCATAT
GG
C
Princip för genom-wide association
GG
C
T
ATGCC
CT
T
C
G
G
TAT
GCAAATG
CT TCGGG
G A TG C
C
ATGCT TCATAT
G TGT
T
AA
GC
C
GCGCT
5000
T
10
1
• Genome-wide association prövar hypoteser som
ännu inte formulerats
• Fall-kontrollstudier, oftast med över 2000
individer
• Chip tekniker som Affymetrix och Illumina
• Helgenoms-chip för mellan 100k SNPs och 1M
SNPs
• Särskilda statistiska tekniker som beaktar att ett
stort antal statistiska test görs
Helgenomsstudier har identifierat flera
sjukdomslokus senaste 2 åren bl.a.
• TCF7L2 för typ-2 diabetes
• Kromosom 9 p21 för hjärtinfarkt och typ-2
diabetes
• Kromosom 6q23 och IRF5 genen för reumatoid
artrit
• 10q26 i den okända genen LOC387715 för grön
starr
• FTO genen för ökat body mass index
• m.m.
Molekylärgenetisk funktionalitet
• Protein
– mängd
– aktivitet
• aminosyrasekvens och struktur
– post-translationella förändringar (tex fosforylering)
– interaktion med andra protein
– timing
• Alla ovanstående förändringar på proteinet kan
detekteras på transkriptionsnivå (mRNA).
Exempel: Variationer IRF-5 genen
Detektion av mRNA förändringar
• Studier i rätt typ av cell under förhållanden som
efterliknar sjukdomen
• Long-range PCR och elektrofores kan detektera
förekomsten av flera transkript (splice-varianter)
• Realtids-PCR kan detektera hur mycket mRNA som
finns i ett prov
• Odling av celler, stopp av nysyntes av med ActinomycinD, detektion med realtids PCR (halveringstid för mRNA)
• Jämföra exonsekvens i DNA med mRNA sekvens för
allelisk obalans
• Kloning av luciferas-reporter gene i en gens promotor
kan visa skillnader i transkriptionseffektivitet för ena eller
andra allelen
Allelspecifikt mRNA uttryck
G/C
C/A
Regulatory region
Coding region
Obalans av alleluttryck i mRNA
G
C
mRNA
C
A
Kaijzel et al Genes Immunity 2001;2:135-144
Kureeman et al Hum Mol Genetics 2004;13:1755-1762
mRNA
VISION OM GENETISKA TEST
Sjukdomsrisk
Träningsråd
Kostråd
Läkemedel
Komplexa sjukdomar –vanligaste
dödsorsaken
Träning och genomik
•
•
•
•
•
Sänkning av kolesterol
Muskelmassa
Syreupptagningsförmåga
Hormonsystem
Blodvolym
Genetiska test forts.
• Test för monogena sjukdomar är inte samma
sak som test för komplexa anlag
• Diagnos vs. riskbedömning
• Ovanlig vs. vanlig
• Erfarenhet om genetisk rådgivning för komplexa
anlag finns från bedömningen av faktor 5 SNPn
för risken för venös blodpropp och BRCA
generna för bröstcancer
GENETISKT TEST FÖR
•
Att tidigt kunna förutsäga
sjukdomsrisk
INVÄNDNINGAR
•
•
•
Kost och livsstil
•
Lägga upp träning
•
Effektivitet och biverkningsrisk
av läkemedel
•
•
•
Hjälp att ta emot informationen
behövs!
Effektiva sätt att förhindra att
sjukdomen bryter ut måste
hittas!
Kliniska prövningar om
kostrekommendationerna på
genetisk basis är effektivt
behövs.
Mer kunskap behövs.
Kan användas begränsat idag
för tex VKORC1 genen. Många
studier görs i skrivande stund.
Andra etiska aspekter runt genetiska test för
att förutsäga framtida sjukdom
• Finns tillräckliga vetenskapliga bevis för testet?
• Vem vill veta?
• Hjälper det att veta och hur drastiska är
åtgärderna för att i så fall minska
sjukdomsrisken?
• Vill släktingar veta?
• Vem äger den genetiska informationen?
• Hur ska informationen om det egna DNAt
skyddas?