Generell detektion av patogen med metagenomik Maria Lind Karlberg Björn Hallström Avdelningen för mikrobiologi Enheten för laboratorieutveckling Hur identifieras en patogen hos en patient med infektion? • Brett spektrum av analysmetoder Alternativ metod för “det okända provet”: • Mer robust och ospecifik (generell detektion av patogen) • Identifiera låga mängder patogen i en komplex värdbakgrund Sid 2. 2016-06-13 ? ? ? ? Vad har alla patogener gemensamt? RNA ? protein Sid 3. 2016-06-13 Next Generation Sequencing (NGS) • Fördelar: – Detekterar både odlingsbara och icke odlingsbara agens – Kräver liten eller ingen a priori kunskap om patogenen • Möjligt att analysera komplext prov bestående av nukleinsyror (DNA eller RNA) från flera olika organismer (och virus): Metagenomisk sekvensering Sid 4. 2016-06-13 Metod för generell detektion av patogen: • RNA sekvensering (RNA seq) • Metagenomisk dataanalys Metagenomisk sekvensering av isolerat RNA från kliniska prover Sid 5. 2016-06-13 Metagenomisk sekvensering av RNA RNA (DNA) extraktion Fragmentering Sekvensering Genome A BLASTn Reads: Genome B Genome C Genome D Genome E Identifiering Sid 6. 13/06/2016 Assembly >seq1 GCCGTAGCAA…N50-400 >seq2 TATGCCGGTA…N50-400 >seq3 CCAGGTCAAT…N50-400 ... >seq5742378 TAAGCTGCCT…N50-400 Dataanalys Hur känslig är metoden? Sid 7. 2016-06-13 RNA seq vs RT-qPCR Okänt RNA Humant RNA RT-qPCR*(Cq) 20 RNAseq (reads) 10% *kräver rätt RT-qPCR metod Sid 8. 2016-06-13 20 5% 20 18 20 50% 50% 75% Detektionsgräns (LoD) för RNA seq Prov Virus Chik1 Chikungunya virus Chik2 Chikungunya virus Chik3 Chikungunya virus Chik4 Chikungunya virus Chik5 Chikungunya virus Chik6 Chikungunya virus Chik7 Chikungunya virus Chik8 Chikungunya virus Viruspool RSV A Viruspool Enterovirus Viruspool Parvovirus Viruspool Adenovirus Viruspool CMV Infl_1 Influenza A virus Infl_3 Influenza B virus Infl_5 Influenza A virus Infl_9 Influenza A virus Infl_11 Influenza A virus LASV1 Lassa virus LASV2 Lassa virus LASV3 Lassa virus Sollentuna 1 Sapovirus Sollentuna 2 Sapovirus Sid . Provmaterial Cq/kvantitet Spikat serum Spikat serum Spikat serum Spikat serum Spikat serum Spikat serum Spikat serum Spikat serum Spikat serum Spikat serum Spikat serum Spikat serum Spikat serum Nasopharynx Nasopharynx Nasopharynx Nasopharynx Nasopharynx Serum Urin Serum Feces Feces 23 27 30 33 36 38 40 ND 17 14 350 cop/µL 7900 cop/µL 2,6 cop/µL 20 21 29 33 37 36 35 30 ND ND NGS. Reads per miljon totala reads* 60969 1121 3605 1049 0,13 ND ND ND 88411 4226 0,57* 341* 1,44* 11834 52870 185 ND ND ND ND 144 46600 467 *540 chip ger 60-90 miljoner reads på 50250 bp *DNA seq Metod för generell detektion av patogen: Art nr 4407 Metagenomik för generell detektion av okänd pathogen • Analysen utförs endast efter kontakt med Folkhälsomyndigheten tel 010-205 2444 • RNA sekvensering – Ion Total RNA-seq kit for the AB Library Builder System (Thermo Fisher Scientific) – “Whole transcriptome” eller “small RNA” bibliotek • Metagenomisk dataanalys – Automatisk dataanalys (Kraken) Sid 10. 2016-06-13 Dataanalys av metagenomisk sekvensering Problembeskrivning • Stora mängder sekvensdata (10-100 miljoner sekvensläsningar) • Stor sökrymd (”alla” genomsekvenser) • Hög känslighet krävs • Bråttom! Sid 12. 2016-06-13 Lösning Kraken • Mjukvara för”ultrasnabb” klassificering av reads mot en stor databas av referensgenom. • ~1000x snabbare än Megablast, bättre taxonomisk precision och jämförbar känslighet. Sid 13. 2016-06-13 Förklaring: K-mer Referensdatabas • Människogenomet • ~5000 bakteriearter • ~5500 virusarter • ~100 ”protozoer” • ~200 svampar Sid 14. 2016-06-13 TCGATGGACGGTATGGACGATCG TCGA CGAT GATG ATGG TGGA .... Alla 31-merer i referensdatabasen klassificeras till ”lowest common ancestor” (LCA). Exempel: Om en 31-mer finns i någon art av Salmonella och någon art av Escherichia så klassificeras den till ”Family: Enterobacteriaceae”. Analysflöde, sekvensfiltrering Sekvensdata AATAATAATAATAATAATAATAATAATAAT GATGGCTAAAGTTGCGTACCCAGTTAGAGT TTTTTTTTTTTTTTTTTTTTTTTTTTTTTT ACCTGATTAGACCATTAGCGATTGACTGAC Lågkomplexitetsfilter (DUST) Sekvensdata utan lågkomplexa reads Sid 15. 2016-06-13 AATAATAATAATAATAATAATAATAATAAT GATGGCTAAAGTTGCGTACCCAGTTAGAGT TTTTTTTTTTTTTTTTTTTTTTTTTTTTTT ACCTGATTAGACCATTAGCGATTGACTGAC Analysflöde, klassificering Sekvensdata Lågkomplexitetsfilter (DUST) Sekvensdata utan lågkomplexa reads LCA-klassificering (Kraken) @read1 GATGGCTAAAGTTGCGTACCCAGTTAGAGT K-mer K-mer K-mer K-mer K-mer ... 1: 2: 3: 4: 5: GATGGCTAA ATGGCTAAA TGGCTAAAG GGCTAAAGT GCTAAAGTT – – – Unclassified Species A Unclassified Genus B Species A Read 1 klassificerat till ”Species A” Upprepa för alla X miljoner reads! Sid 16. 2016-06-13 Analysflöde, sammanställning Sekvensdata Lågkomplexitetsfilter (DUST) Sekvensdata utan lågkomplexa reads LCA-klassificering (Kraken) Klassificering av alla sekvensläsningar Sid 17. 2016-06-13 Sammanställning Analysflöde, validering Sekvensdata • Mappning av klassificerade reads till referensgenom Lågkomplexitetsfilter (DUST) Sekvensdata utan lågkomplexa reads LCA-klassificering (Kraken) Klassificering av alla sekvensläsningar Sid 18. 2016-06-13 • BLASTa reads/assembly mot NCBI NT Sammanställning Validering Fallgropar • Falska positiva • • • Inkorrekta sekvenser i referensdatabasen Kontamination ??? • Falska negativa • • Referenssekvens saknas i databas Hög divergens från referenssekvens Sid 19. 2016-06-13 Tack till… MI-LU: Erik Alm Gunnel Lindegren Gabriel Östlund Reza Advani Anna-Lena Hammarin Mattias Mild Per Sikora Steve Glavas Sid 20. 2016-06-13 MI Nina Lagerqvist Thomas Tolfvenstam Kerstin Falk Andreas Bråve Åsa Wiman Tove Samuelsson