2008-12-08
Human Molekylärgenetik
Del 2 – Identifiering av riskgener för g
g
komplexa sjukdomar
ANDERS MÄLARSTIG, molekylärgenetiker på enheten för aterosklerosforskning,
Centrum för Molekylärmedicin, Karolinska Institutet, Solna
[email protected]
Monogen sjukdom
Nära 100 % penetrans
Låg incidens
Miljöfaktorer mindre viktiga
Exempel: huntingtons l h
sjukdom, cystisk fibros, hyperkolesterolemi
Fenotypen beror helt på vilken gen och i vilken position i genen variationen finns
Kopplingsstudie
Komplex sjukdom
Låg penetrans
Hög incidiens
Miljöfaktorer lika viktiga som genetiska
Exempel: hjärtinfarkt, stroke, benskörhet, reumatoid artrit, grön starr, Chrons sjukdom, manodepressivitet
Patienter med sjukdomen är en heterogen grupp med h
d
olika bakomliggande orsaker till sjukdom
Associationsstudie
1
2008-12-08
Vetenskaplig frågeställning / hypotes
Design av experimentell eller klinisk studie
Bioinformatik Genotypning replikering
Statistisk analys
Funktionella studier Tillämpning
Identifiering av riskgen
Från känd biologi
Kandidatgen
Genome‐wide association
Genotypning av ett stort antal SNPs spridda över genomet
Genotypning av ett mindre antal SNPs i d
t l SNP
Statistisk analys Statistisk analys Funktionella studier och bekräftande kliniska studier
2
2008-12-08
Kandidatgen
• Utgångspunkt i kända biologiska sjukdomsmekanismer
• Prövar en hypotes, men den är begränsad av befintlig Prövar en hypotes men den är begränsad av befintlig
biologisk kunskap om sjukdomen
• Enkel epidemiologisk statistik kan användas
• Många SNPs inom en liten region kan bestämmas för att maximera genetisk information
Associationsstudie helgenoms SNP
• Genome‐wide association prövar hypoteser som ännu inte formulerats
• Stora fall‐kontrollstudier
Stora fall‐kontrollstudier
• Chip tekniker som Affymetrix och Illumina
• Helgenoms‐chip för mellan 100k SNPs och 1M SNPs
• Särskilda statistiska tekniker som beaktar att ett stort antal statistiska test görs
3
2008-12-08
Helgenomsstudier har identifierat flera sjukdomslokus senaste 2 åren bl.a.
•
•
•
•
•
•
TCF7L2 för typ‐2 diabetes
Kromosom 9 p21 för hjärtinfarkt och typ‐2
Kromosom 9 p21 för hjärtinfarkt och typ
2 diabetes
diabetes
Kromosom 6q23 och IRF5 genen för reumatoid artrit
10q26 i den okända genen LOC387715 för grön starr
FTO genen för ökat body mass index
m.m. Venös trombos (blodpropp)
• Allvarligt tillstånd där blodflödet i en ven hindras, vid lungemboli livshotande
• Hög ålder, cancer, p‐piller och kirurgiska ingrepp är Hög ålder cancer p‐piller och kirurgiska ingrepp är
vanliga riskfaktorer
• Incidens cirka 175 fall / 100 000 inv. och år
• Genetiska riskfaktorer i factor 5, protrombin, protein C och S generna, vilka ingår i reglering av koagulation
– SNPs i 5 andra gener har visat association till sjukdomen
SNPs i 5 andra gener har visat association till sjukdomen
• Ärftlighet över 50 %
4
2008-12-08
Urval av fall och kontroller
Rekrytering av patientgrupp via klinik
Rekrytering av matchade friska individer via populationsregister
individer via populationsregister
Venöst blodprov för att ta DNA och blodplasma
Exkludering av patienter som inte uppfyller fördefinierade kriterier, Längd, vikt, ålder, livsstilsvanor dokumenteras
Databas
Bestämning av plasmaprotein i blodprover
Upprättande av biobank
Framrening av DNA från blod
Genotypning av 300k SNPs med chip teknik
Teknologier för SNP genotypning
•
•
•
•
•
Pålitliga
Snabba
K t d ff kti
Kostnadseffektiva
Robotiserade –mindre manuellt arbete
Flexibilitet vid design av metod
5
2008-12-08
ATGCC
Princip för genom‐wide associattion
TCGGG
AAATG
ATGCT TCATAT
ATGCT
300 000
5000
TCATAT
10
GCGCT
1
6
2008-12-08
Illumina
7
2008-12-08
8
2008-12-08
CHR SNP
POSITION
GENE
LOC
MAF
HWE_P
A 1 A 2 CHISQ
P_CMH
OR_CMH
X
rs2563751
90976 PCDH11X 5UTR
46.7%
0.79 T
C
59.75
1.1E‐14
2.4
X
rs34259897
92210 PCDH11X flanking_3UTR
20.3%
0.24 A
G
49.19
2.3E‐12
0.5
X
rs2573828
91516
‐
‐
48.8%
0.92 T
C
41.55
1.2E‐10
0.5
5
rs34868670
40273
PTGER4
flanking_5UTR
36.4%
0.97 C
T
37.09
1.1E‐09
1.5
1
rs12743401
200743 PPP1R12B intron
36.7%
0.75 C
T
37.01
1.2E‐09
1.5
1
rs3817222
200731 PPP1R12B coding
35.9%
0.96 T
C
36.98
1.2E‐09
1.5
1
rs3881953
200794 PPP1R12B coding
36.3%
0.93 A
G
36.66
1.4E‐09
1.5
1
rs12734338
200736 PPP1R12B intron
36.8%
0.19 C
T
36.59
1.5E‐09
1.5
1
rs3354
94123
F3
3' UTR
28.0%
0.94 C
T
35.24
1.3E‐09
1.6
13 rs2451078
18996
TPTE2
intron
48.5%
0.79 C
G
30.85
2.8E‐08
1.4
X
rs2524583
91047
‐
‐
34.7%
1.00 G
T
29.68
5.1E‐08
0.5
9
rs7866590
132700
ABL1
X
rs4341301
91587
‐
12 rs3217907
4277
X
6292
rs6529942
2.2%
0.98 T
C
25.77
3.8E‐07
3.2
‐
intron
42.2%
0.79 T
C
23.12
1.5E‐06
1.7
CCND2
intron
33.9%
0.95 A
C
21.25
4.0E‐06
0.7
NLGN4X
flanking_5UTR
36.8%
0.18 T
C
21
4.6E‐06
0.6
Hardy‐Weinberg equilibrium
This model relies on the following assumptions:
a.
b.
c.
d.
e.
f.
g.
Infinite population size.
Discrete generations.
Random mating.
No selection.
No migration.
No mutation.
Equal initial genotype frequencies in the two sexes.
9
2008-12-08
Hardy‐Weinberg equilibrium
If we define the frequencies of the alleles as:
•
p = P(A) = u + v/2
•
q = P(a) = v/2 + w
then, the genotype frequencies are:
•
P(A/A) = p2
• P(A/a) = 2pq
• P(a/a) = q2
Second generation respects the same distribution:
P(AA)= (p2 + ½2 pq)2 = [p(p+q)]2 = p2 P(Aa)= 2(p2 + ½2pq) (½2pq +q2) =2p(p+q)q(p+q)= 2pq
P(aa) = (½2pq + q2)2 = [q(p + q)]2 = q2
THE HARDY‐WEINBERG LAW
• p + q = 1
• p2 + 2pq + q2 = 1
• p = frequency of the dominant allele in the population
q = frequency of the recessive allele in the population
• p2 = percentage of homozygous dominant individuals
q2 = percentage of homozygous recessive individuals
2pq = percentage of heterozygous individuals 10
2008-12-08
Statistisk metodik 1, Hardy‐Weinberg Equilibrium (kvalitetskontroll av genotypning)
Hardy‐Weinberg observed
Controls
AA
Aa
aa
146
129
28
AA
Aa
aa
161
155
49
SUM
Patients
SUM
expected
chi‐square
p‐value (1‐tailed)
146,238
0,0004
128,523
0,0018
28,238
0,0020
0,004171869 0,9485 check result
155,842
165 316
165,316
43,842
0,1707
0,6438
0
6438
0,6069
1,421413249 0,233171 check result
p-värde >0.05 ger att fördelningen av genotyper av vår SNP är inom
Hardy-Weinberg equilibrium
Statistisk metodik 2
Allele Frequency rs3354
Kontroller
Fall
CC
CT
TT
182
CC
CT
TT
161
count CT
total
frequency C
129
28
185
678
72,7%
253
730
65,3%
155
49
11
2008-12-08
Statistisk metodik 3 –homogenitetstest med chi‐två fördelningen
Kontroller
Observed 185
493
678
C
T
Total Kolumn
ChiTvåvärde
Exp
210 91
210,91
467,09
Fall
Observed 253
477
730
Exp
Total rad
227 09
227,09
438
502,91
970
1408
3,18
1,44
2,96
1,34
8 91
8,91
ChiTvåvärde
Kritiskt värde
p‐value (1‐tailed)
3,841
0,0028
check result
P-värde <0.05, alltså är fördelningen av allelerna är signifikant skilda i fall
och kontroller. Högre frekvens av T allel i patientgruppen ger att: T allelen
ökar risken för venös blodpropp.
Vilka andra SNPs finns i tissue factor genen?
Primary Transcript
rs592435
Exon 4
rs610277
Exon 5
rs3917642
rs3917641
rs958587
Exon 3
rs762484 rs3917643
Exon 1 Exon 2
rs1034363
Exon 6
rs1144300
rs3354
-2695 rs644530
-9914 rs698942
F3 Gene
12
2008-12-08
Samvariation mellan SNPs (www.hapmap.org)
R2-måttet
D’-måttet
bäst
1
sämst
0
NCBI dbSNP
refSNP ID: rs3354
human (Homo
Organism:
sapiens)
Molecule Type: Genomic
Created/Updated in
36/127
build:
Allele
SNP:
Variation Class: single nucleotide
polymorphism
p
y
p
Alleles: C/T
Ancestral Allele: C
Map to Genome
36.2
Build:
GeneView via analysis of contig annotation: F3 coagulation factor III
(thromboplastin, tissue factor)
Click to see [all] [cSNP] [has frequency] [double hit] [haplotype tagged]
variations associated with this gene.
…….GTTAAAAATT AAAACTTGGA ATTGGTTGTA GTACCATT
C/T
GTTACATTTC AAAGTGACTA ATGCTGATGT CAAAACCAGA…….
13
2008-12-08
Allel och genotypfrekvenser
Individual Chrom.
ss#
Population
G
Group
Sample
Cnt.
C/C
C/T
T/T
HWP
C
T
184AF
0.710 0.290
120IG
0.500 0.483 0.017 0.050 0.742 0.258
HapMap‐HCB Asian
90IG
0.267 0.578 0.156 0.254 0.556 0.444
HapMap‐JPT
HapMap
JPT
88IG
0 295 0.545
0.295
0 545 0.159
0 159 0.479
0 479 0.568
0 568 0.432
0 432
120IG
0.633 0.283 0.083 0.150 0.775 0.225
74IG
0.554 0.446
ss1882765
CEPH
Source
HapMap‐CEU European
HapMap‐YRI
Asian
Sub‐Saharan African
CHMJ
Asian
Prediktion av vilka SNPs som kan påverka funktion
• PolyPhen ‐ Predikterar hur en aminosyraförändring påverkar proteinets hydrofobicitet, isolelektriska punkt och struktur
• Ensembl – Sammanfogar information från ett hundratal databaser för regioner i genomet
• Fylogenetisk footprinting (ECR‐browser) –undersöker om SNPn ligger i en region som är evolutionärt konserverad genom att jämföra ortologa sekvenser i andra arter
• Transfac –undersöker vilka transkriptionsfaktorer som p
potentiellt kan binda i regionen där SNPn är positionerad
• ESEfinder –söker potentiella splice sites
14
2008-12-08
Splice‐sites
The first 400 basepairs in the tissue factor promoter and potential transcription factor binding sites
15
2008-12-08
Studiedesign för uppföljande studier
•
•
•
•
Fall‐kontroll (enklast)
Populationsbaserad prospektiv studie
Populationsbaserad prospektiv studie
Prospektiv patientstudie
Friska frivilliga för en kvantitativ fenotyp som är relaterad till sjukdomen exempelvis koncentration av tissue factor protein i blodet
Urval av genotypningsmetoder
Gamla metoder
RFLP
Allelspecifik amplifiering
Sangersekvensering
Moderna metoder för uppföljande studier
Realtids PCR (Taqman och Lightcycler)
ASO (allele specifik oligonukleotid)
ASO (allele‐specifik oligonukleotid) hybridisering
OLA (oligonukleotid ligering)
Single‐base extension techniques (Illumina+Affymetrix)
Pyrosekvensering
Massive parallell sequencing (Solexa
Massive parallell sequencing (Solexa, 454‐sequencing)
16
2008-12-08
RFLP
Elektroforesbaserad detektion
17
2008-12-08
Allelspecifik amplifiering
Taqman‐probe
18
2008-12-08
Realtids PCR
Alleldiskriminering med realtids‐PCR
CC
CT
TT
19
2008-12-08
Molekylärgenetisk funktionalitet
• Protein
– mängd
– aktivitet
• aminosyrasekvens och struktur
– post‐translationella förändringar (tex fosforylering)
– interaktion med andra protein
– timing
Exempel: Variationer IRF‐5 genen
20
2008-12-08
Detektion av mRNA förändringar
• Studier i rätt typ av cell under förhållanden som efterliknar sjukdomen • Long‐range PCR och elektrofores kan detektera förekomsten av flera transkript (splice‐varianter)
• Realtids‐PCR kan detektera hur mycket mRNA som finns i ett prov
• Odling av celler, stopp av nysyntes av med Actinomycin‐D, detektion med realtids PCR (halveringstid för mRNA)
• Jämföra exonsekvens i DNA med mRNA sekvens för allelisk Jämföra exonsekvens i DNA med mRNA sekvens för allelisk
obalans
• Kloning av luciferas‐reporter gene i en gens promotor kan visa skillnader i transkriptionseffektivitet för ena eller andra allelen
21
2008-12-08
Allelspecifikt mRNA uttryck
G/C
C/A
Regulatory region
Coding region
Obalans av alleluttryck i mRNA
G
C
mRNA
C
A
mRNA
Kaijzel et al Genes Immunity 2001;2:135-144
Kureeman et al Hum Mol Genetics 2004;13:1755-1762
Tillämpningar genetik
• Identifiering av biologiska signalvägar och mekanismer
• Identifiering av helt nya läkemedel
Identifiering av helt nya läkemedel
• Farmakogenetik (effektivitet och biverkningar)
• Tidiga preventiva åtgärder för bärare av riskvarianter
• Genterapi
22
2008-12-08
VISION OM GENETISKA TEST
Sjukdomsrisk
Träningsråd
K t åd
Kostråd
Läkemedel
GENETISKT TEST FÖR
• Att tidigt kunna förutsäga sjukdomsrisk
• Kost och livsstil
• Lägga upp träning
• Effektivitet och biverkningsrisk av läkemedel
INVÄNDNINGAR
• Hjälp att ta emot informationen behövs!
Eff k i
ä
fö hi d
• Effektiva sätt att förhindra att sjukdomen bryter ut måste hittas!
• Kliniska prövningar om kostrekommendationerna på genetisk basis är effektivt behövs. • Mer kunskap behövs.
• Kan användas begränsat idag för tex VKORC1 genen. Många studier görs i skrivande stund.
23