Pilotstudie NGS: E. coli ESBL från patienter med misstänkt sepsis Helena Enroth, Med Dr (PhD), Klinisk molekylärbiologi, Unilabs, Skövde och Adj. Professor, Systems Biology Research Group, Inst. för biovetenskap, Högskolan i Skövde Molekylärbiologer behöver kunna en del bioinformatik! Bioinformatiker behöver kunna en del molekylärbiologi! Om 5 år: Bioinformatik används inom diagnostik och behövs på varje kliniskt (universitets) laboratorium NGS inom mikrobiologi i Sverige SciLife lab i Solna (www.scilifelab.se): plattform för klinisk diagnostik (mikrobiologi och humangenetik) ”Clinical biomarkers, national facility” ”Clinical genomics, national facility” ”Clinical sequencing, national facility”, bench-to-bedside services Andra laboratorier: Folhälsomyndigheten FHM, Stockholm Örebro universitets sjukhus Fler lab i Sverige? Utvecklingsprojekt 2014-2015: Pilotstudie NGS Samarbete mellan Unilabs Skövde, Avd. för infektionssjukdomar på SkaS, Högskolan i Skövde och 1928 Diagnostics Sekvensering och bioinformatisk analys utfördes på SciLifeLab Medel från Unilabs interna FoU-anslag Bakgrund ”Sepsisstudien Skaraborg”, september 2011- juni 2012 2300 patogena bakterieisolat insamlade: 497 E. coli (9 ESBL) 317 S. aureus (4 MRSA) 245 Streptokocker 1250 andra isolat, många olika arter Alla isolat kommer från patienter inkluderade i sepsisstudien Olika provtyper och provlokaler Metoderna från studien ska ge oss insikt! • Kunskap, teoretiskt och praktiskt, vad NGS/WGS innebär • Tid och kostnader • Arbetsbelastning på lab • Arbetsbelastning för bioinformatisk analys, databearbetning, vilka mjukvaror ska man använda • Vilka jämförelser kan man göra • ”Proof of concept”, analys utförs av 1928 Diagnostics • Dataset som kan användas inom undervisning i bioinformatik på Högskolan i Skövde Målen med pilotstudien • Att genom praktiskt arbete vid SciLifeLab i Solna lära oss om arbetsflödet vid NGSanalys • Att få en översikt över arbetsflödet vid analys av NGS-data • Att få en förståelse för vilken information man kan få fram vid sekvensering av bakteriegenom • Att jämföra genomen mellan E. coli och E. coli ESBL • Finns detekterbara skillnader mellan isolat från olika lokaler/ olika sepsispatienter avseende plasmider, virulensmarkörer, resistensgener, fylogenetisk gruppering… Projektplanering • 16 matchade patienter (15 pyelonefrit, 1 liggsår) • 21 E. coli isolat: 9 ESBL/12 E. coli • Urin (15), blod (4), allmän odling (2) • Fenotypisk resistensbestämning • DNA extraktion på MagnaPure Compact • DNA koncentration på Biospec • SciLifeLab: • Helgenomsekvensering på MiSeq (Illumina) • Bioinformatik: • Sekvensanalys av NGS datat utförs på • SciLifeLab, HiS och 1928Diagnostics • Molekylärgenetisk analys inkluderar patogenes, virulens, resistens • Statistisk analys av resultat: SPSS Metoder på SciLifeLab • Mätning av dsDNA koncentration broad/low range, (Qubit) • Nextera XT DNA sample preparation guide (Illumina): Dilution of DNA, DNA measurement Tagmentation of genomic DNA (PCR), library preparation PCR clean up of library fragments Fragment analysis DNA measurement Dilution of amplicon libraries, NaOH treatment (average length, DNA konc) Pooling/dilution of amplicon libraries, ”sample” concentration 12pM in 600 microliter to the instrument Add Illumina sequence control, 1% PhiX Heat denaturation before sequencing Metoder på SciLifeLab • Miseq systems user guide (Illumina): Wash Miseq with Tween 20 before/after run Loading of flow cell, pooled library into reagent cartridge, buffer, waste bottle Load ”Sample sheet” on Miseq (sample ID+tags) Cluster generation in flow cell Sequencing by synthesis (SBS-technology) http://www.illumina.com/t echnology/nextgeneration-sequencing/sequencingtechnology.html Analysis time approx 72 h Up to 25 million reads/run in one flowcell Run QC; length of reads, cluster density www.Illumina.com Bioinformatisk analys av NGS data • Rådatat är svart/vita foton från flödescellen (.bcl files) • Teoretisk “coverage”: #reads x read length #samples x genome size • Demultiplexing, .fastq files (sample name, tags), forward och reverse • Quality trimming, remove tags, .fasta files • Assembly av data till contigs (SPAdes genome assembler, RAY) Contigs: dependent on read lenght, coverage • Summan av contigs = genomet + plasmider • Analysen utförs på assembled datasets (contigs) Bioinformatisk översikt (UNIX) 1) Bcl → FastQ Demultiplexing sample_001_R1_fastq sample_001_R2_fastq 4 rader/read: @miseq-{FC10} {BARCODE} ATGCCGTTAGCCTCTGAA…. + i&AWT!$.... 2) Removal of duplicates, adaptor removal, quality trimming, k-mer 30bp (fastUniq, Seqprep), FastQC report 3) Assembly (SPAdes, RAY) sample_001_contigs.fasta >contig_123 ATGCCGTTAGCCTCTGAA…. 4) Tre olika dataset: hela arvsmassan, kromosom, plasmid 5) Analys med gratis mjukvara: Resfinder, Virulencefinder, Plasmidfinder, MLST…. 6) Fylogenetisk gruppering med 4 primerpar (Doumith et al JCM 2012) Mjukvara för NGS-dataanalys http://www.genomicepidemiology.org/ https://cge.cbs.dtn.dk NGS-dataanalys Referenser tillgängliga för mjukvaran/databasen • Dataset: approx 5 MB/sample, contigs > whole genome One bacterial genome approx a few hundred contigs • Uploads: assembled contigs, in fasta-format SPAdes: all contigs (chromosomal and plasmids) RAY: all contigs, chromosomal contigs, plasmid contigs (high copy no=more reads) • Species finder: 16SrRNA based species identification • Pathogen finder: “The input organism was predicted as human pathogen”, matched family 100%, complete genome reference from NCBI database • Resfinder: Select ID threshold (98-100%), minimum length overlap (60%) no results = no resistance genes found • Virulence finder: Select species, threshold for ID (98-100%), type of reads Virulence factor, protein function • Plasmid finder: Select database, threshold for ID (95-100%), type of reads Plasmid/Locusname or No plasmid replicons found • MLST: Select MLST configuration, E coli #1 (7 genes), E coli #2 (8 genes), type of reads (also pMLST available) Typing results ST = Sequence type Patient Isolate 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 1 E coli ESBL 2 E coli ESBL 3 E coli ESBL 4 E coli ESBL 5 E coli ESBL 6 E coli ESBL 7 E coli ESBL 8 E coli ESBL 9 E coli ESBL 10 E coli 11 E coli 12 E coli 13 E coli 14 E coli 15 E coli 16 E coli 17 E coli 18 E coli 19 E coli 20 E coli 21 E coli Sample type MLST #1 Urine Urine Other Urine Blood Urine Urine Urine Blood Urine Urine Other Urine Urine Blood Urine Urine Urine Urine Blood Urine ST-127 ST-10 ST-10 ST-131 ST-12 ST-12 ST-38 ST-69 ST-156 ST-80 ST-69 ST-744 ST-744 ST-91 ST-48 ST-48 ST-127 ST-131 ST-131 ST-2448 ST-2448 No. of plasmids >95% No plasmids 2 5 3 5 6 1 4 2 No plasmids 3 4 2 3 No plasmids No plasmids No plasmids No plasmids No plasmids 2 2 No. of virulence genes >98% 8 2 4 6 8 8 4 4 4 11 6 2 2 5 2 2 8 3 3 3 3 No. of Phylogenetic resistance group genes >98% 1 B2 8 A 14 A 7 A 2 D 9 A 3 A 11 D 2 A 0 A 7 D 10 A 10 A 0 D 0 A 0 A 0 A 0 B1 0 B1 5 A 5 A Resultat från analys • • • • • • • • • • • • • Par av isolat från samma patient, men olika provlokaler, gav nästan helt identiska resultat för plasmider, resistens, virulens, MLST och fylogenetisk gruppering Ingen signifikant skillnad mellan isolat från olika lokaler 7/21 sekvenser gav E. coli med Speciesfinder, resten gav ”Failed result” (Shigella boydii/E coli) Pathogenfinder föreslog match med E. coli UTI89 complete genome De fyra vanligast förekommande virulensgenerna, iss, prfb, gad, vat, överrensstämde väl med uropatogena E. coli (UPEC) De flesta virulens- och resistensgenerna lokaliserades till plasmiderna Fem av virulensgenerna återfanns i kromosomdatasetet, men 3/5 hittades inte i plasmiddatasetet E. coli ESBL hade (statistiskt signifikant) fler plasmider och resistensgener än E. coli 9/9 E. coli ESBL och 1/12 E. coli hade resistensgener (100% match) mot Beta-lactam antibiotika vilket överensstämde väl med fenotypen 7/12 E. coli hade inga resistensgener De flesta virulens- och resistensgenerna lokaliserades till plasmiderna MLST #1 gav fler ST resultat än MLST#2 Fylogenetisk gruppering stämde väl med övriga resultat Statistisk analys (SPSS) Isolat Antal plasmider E. coli ESBL E. coli Antal virulensgener E. coli ESBL E. coli Antal resistensgener E. coli ESBL E. coli Median Antal isolat IQR P-värde* 9 3 4 12 1 3 9 4 4 12 3 4 9 7 7 12 0 8 IQR= Inter Quartile Range *P värde efter Bonferroni korrigering visas i parentes. 0,049 (0,147) 0,148 (0,444) 0,049 (0,147) Framtida planer NGS på fler av isolaten insamlade under sepsisstudien Ansökan inskickad till SciLifeLab, ”Biodiversity”, Maj 2015 NGS inom klinisk diagnostik i framtiden?