Generell detektion av patogen med metagenomik

Generell detektion av patogen med
metagenomik
Maria Lind Karlberg
Björn Hallström
Avdelningen för mikrobiologi
Enheten för laboratorieutveckling
Hur identifieras en patogen hos en
patient med infektion?
• Brett spektrum av analysmetoder
Alternativ metod för “det okända
provet”:
• Mer robust och ospecifik (generell
detektion av patogen)
• Identifiera låga mängder patogen i
en komplex värdbakgrund
Sid 2. 2016-06-13
?
?
?
?
Vad har alla patogener gemensamt?
RNA
?
protein
Sid 3. 2016-06-13
Next Generation Sequencing (NGS)
• Fördelar:
– Detekterar både odlingsbara och icke
odlingsbara agens
– Kräver liten eller ingen a priori kunskap
om patogenen
• Möjligt att analysera komplext prov
bestående av nukleinsyror (DNA
eller RNA) från flera olika
organismer (och virus):
Metagenomisk sekvensering
Sid 4. 2016-06-13
Metod för generell detektion av patogen:
• RNA sekvensering (RNA seq)
• Metagenomisk dataanalys
Metagenomisk sekvensering av isolerat RNA från kliniska
prover
Sid 5. 2016-06-13
Metagenomisk sekvensering av RNA
RNA (DNA)
extraktion
Fragmentering
Sekvensering
Genome A
BLASTn
Reads:
Genome B
Genome C
Genome D
Genome E
Identifiering
Sid 6. 13/06/2016
Assembly
>seq1
GCCGTAGCAA…N50-400
>seq2
TATGCCGGTA…N50-400
>seq3
CCAGGTCAAT…N50-400
...
>seq5742378
TAAGCTGCCT…N50-400
Dataanalys
Hur känslig är metoden?
Sid 7. 2016-06-13
RNA seq vs RT-qPCR
Okänt RNA
Humant RNA
RT-qPCR*(Cq)
20
RNAseq (reads)
10%
*kräver rätt RT-qPCR metod
Sid 8. 2016-06-13
20
5%
20
18
20
50%
50%
75%
Detektionsgräns (LoD) för RNA seq
Prov
Virus
Chik1
Chikungunya virus
Chik2
Chikungunya virus
Chik3
Chikungunya virus
Chik4
Chikungunya virus
Chik5
Chikungunya virus
Chik6
Chikungunya virus
Chik7
Chikungunya virus
Chik8
Chikungunya virus
Viruspool
RSV A
Viruspool
Enterovirus
Viruspool
Parvovirus
Viruspool
Adenovirus
Viruspool
CMV
Infl_1
Influenza A virus
Infl_3
Influenza B virus
Infl_5
Influenza A virus
Infl_9
Influenza A virus
Infl_11
Influenza A virus
LASV1
Lassa virus
LASV2
Lassa virus
LASV3
Lassa virus
Sollentuna 1
Sapovirus
Sollentuna 2
Sapovirus
Sid
.
Provmaterial Cq/kvantitet
Spikat serum
Spikat serum
Spikat serum
Spikat serum
Spikat serum
Spikat serum
Spikat serum
Spikat serum
Spikat serum
Spikat serum
Spikat serum
Spikat serum
Spikat serum
Nasopharynx
Nasopharynx
Nasopharynx
Nasopharynx
Nasopharynx
Serum
Urin
Serum
Feces
Feces
23
27
30
33
36
38
40
ND
17
14
350 cop/µL
7900 cop/µL
2,6 cop/µL
20
21
29
33
37
36
35
30
ND
ND
NGS. Reads per
miljon totala
reads*
60969
1121
3605
1049
0,13
ND
ND
ND
88411
4226
0,57*
341*
1,44*
11834
52870
185
ND
ND
ND
ND
144
46600
467
*540 chip ger 60-90
miljoner reads på 50250 bp
*DNA seq
Metod för generell detektion av patogen:
Art nr 4407 Metagenomik för generell detektion av okänd
pathogen
• Analysen utförs endast efter kontakt med Folkhälsomyndigheten
tel 010-205 2444
• RNA sekvensering
– Ion Total RNA-seq kit for the AB Library Builder System (Thermo Fisher
Scientific)
– “Whole transcriptome” eller “small RNA” bibliotek
• Metagenomisk dataanalys
– Automatisk dataanalys (Kraken)
Sid 10. 2016-06-13
Dataanalys av metagenomisk
sekvensering
Problembeskrivning
• Stora mängder sekvensdata (10-100 miljoner sekvensläsningar)
• Stor sökrymd (”alla” genomsekvenser)
• Hög känslighet krävs
• Bråttom!
Sid 12. 2016-06-13
Lösning
Kraken
• Mjukvara för”ultrasnabb” klassificering av reads mot en stor
databas av referensgenom.
• ~1000x snabbare än Megablast, bättre taxonomisk precision och
jämförbar känslighet.
Sid 13. 2016-06-13
Förklaring: K-mer
Referensdatabas
• Människogenomet
• ~5000 bakteriearter
• ~5500 virusarter
• ~100 ”protozoer”
• ~200 svampar
Sid 14. 2016-06-13
TCGATGGACGGTATGGACGATCG
TCGA
CGAT
GATG
ATGG
TGGA
....
Alla 31-merer i referensdatabasen
klassificeras till ”lowest common ancestor”
(LCA).
Exempel: Om en 31-mer finns i någon
art av Salmonella och någon art av
Escherichia så klassificeras den till
”Family: Enterobacteriaceae”.
Analysflöde, sekvensfiltrering
Sekvensdata
AATAATAATAATAATAATAATAATAATAAT
GATGGCTAAAGTTGCGTACCCAGTTAGAGT
TTTTTTTTTTTTTTTTTTTTTTTTTTTTTT
ACCTGATTAGACCATTAGCGATTGACTGAC
Lågkomplexitetsfilter
(DUST)
Sekvensdata utan
lågkomplexa reads
Sid 15. 2016-06-13
AATAATAATAATAATAATAATAATAATAAT
GATGGCTAAAGTTGCGTACCCAGTTAGAGT
TTTTTTTTTTTTTTTTTTTTTTTTTTTTTT
ACCTGATTAGACCATTAGCGATTGACTGAC
Analysflöde, klassificering
Sekvensdata
Lågkomplexitetsfilter
(DUST)
Sekvensdata utan
lågkomplexa reads
LCA-klassificering
(Kraken)
@read1
GATGGCTAAAGTTGCGTACCCAGTTAGAGT
K-mer
K-mer
K-mer
K-mer
K-mer
...
1:
2:
3:
4:
5:
GATGGCTAA
ATGGCTAAA
TGGCTAAAG
GGCTAAAGT
GCTAAAGTT
–
–
–
Unclassified
Species A
Unclassified
Genus B
Species A
Read 1 klassificerat till ”Species A”
Upprepa för alla X miljoner reads!
Sid 16. 2016-06-13
Analysflöde, sammanställning
Sekvensdata
Lågkomplexitetsfilter
(DUST)
Sekvensdata utan
lågkomplexa reads
LCA-klassificering
(Kraken)
Klassificering av alla
sekvensläsningar
Sid 17. 2016-06-13
Sammanställning
Analysflöde, validering
Sekvensdata
• Mappning av klassificerade reads till referensgenom
Lågkomplexitetsfilter
(DUST)
Sekvensdata utan
lågkomplexa reads
LCA-klassificering
(Kraken)
Klassificering av alla
sekvensläsningar
Sid 18. 2016-06-13
• BLASTa reads/assembly mot NCBI NT
Sammanställning
Validering
Fallgropar
• Falska positiva
•
•
•
Inkorrekta sekvenser i referensdatabasen
Kontamination
???
• Falska negativa
•
•
Referenssekvens saknas i databas
Hög divergens från referenssekvens
Sid 19. 2016-06-13
Tack till…
MI-LU:
Erik Alm
Gunnel Lindegren
Gabriel Östlund
Reza Advani
Anna-Lena Hammarin
Mattias Mild
Per Sikora
Steve Glavas
Sid 20. 2016-06-13
MI
Nina Lagerqvist
Thomas Tolfvenstam
Kerstin Falk
Andreas Bråve
Åsa Wiman
Tove Samuelsson