Pilotstudie NGS: E. coli ESBL från
patienter med misstänkt sepsis
Helena Enroth, Med Dr (PhD), Klinisk molekylärbiologi, Unilabs,
Skövde och Adj. Professor, Systems Biology Research Group, Inst.
för biovetenskap, Högskolan i Skövde
Molekylärbiologer behöver
kunna en del bioinformatik!
Bioinformatiker behöver
kunna en del
molekylärbiologi!
Om 5 år:
Bioinformatik används inom diagnostik och behövs på
varje kliniskt (universitets) laboratorium
NGS inom mikrobiologi i Sverige
SciLife lab i Solna (www.scilifelab.se):
plattform för klinisk diagnostik (mikrobiologi och humangenetik)
”Clinical biomarkers, national facility”
”Clinical genomics, national facility”
”Clinical sequencing, national facility”, bench-to-bedside services
Andra laboratorier:
Folhälsomyndigheten FHM, Stockholm
Örebro universitets sjukhus
Fler lab i Sverige?
Utvecklingsprojekt 2014-2015:
Pilotstudie NGS
Samarbete mellan Unilabs Skövde, Avd. för infektionssjukdomar
på SkaS, Högskolan i Skövde och 1928 Diagnostics
Sekvensering och bioinformatisk analys utfördes på SciLifeLab
Medel från Unilabs interna FoU-anslag
Bakgrund
”Sepsisstudien Skaraborg”, september 2011- juni 2012
2300 patogena bakterieisolat insamlade:
497 E. coli (9 ESBL)
317 S. aureus (4 MRSA)
245 Streptokocker
1250 andra isolat, många olika arter
Alla isolat kommer från patienter inkluderade
i sepsisstudien
Olika provtyper och provlokaler
Metoderna från studien ska ge oss insikt!
• Kunskap, teoretiskt och praktiskt,
vad NGS/WGS innebär
• Tid och kostnader
• Arbetsbelastning på lab
• Arbetsbelastning för bioinformatisk
analys, databearbetning, vilka
mjukvaror ska man använda
• Vilka jämförelser kan man göra
• ”Proof of concept”, analys utförs av
1928 Diagnostics
• Dataset som kan användas inom
undervisning i bioinformatik på
Högskolan i Skövde
Målen med pilotstudien
• Att genom praktiskt arbete vid SciLifeLab i
Solna lära oss om arbetsflödet vid NGSanalys
• Att få en översikt över arbetsflödet vid
analys av NGS-data
• Att få en förståelse för vilken information
man kan få fram vid sekvensering av
bakteriegenom
• Att jämföra genomen mellan E. coli och E.
coli ESBL
• Finns detekterbara skillnader mellan isolat
från olika lokaler/ olika sepsispatienter
avseende plasmider, virulensmarkörer,
resistensgener, fylogenetisk gruppering…
Projektplanering
• 16 matchade patienter (15 pyelonefrit, 1
liggsår)
• 21 E. coli isolat: 9 ESBL/12 E. coli
• Urin (15), blod (4), allmän odling (2)
• Fenotypisk resistensbestämning
• DNA extraktion på MagnaPure Compact
• DNA koncentration på Biospec
• SciLifeLab:
• Helgenomsekvensering på MiSeq (Illumina)
• Bioinformatik:
•
Sekvensanalys av NGS datat utförs på
•
SciLifeLab, HiS och 1928Diagnostics
• Molekylärgenetisk analys inkluderar
patogenes, virulens, resistens
• Statistisk analys av resultat: SPSS
Metoder på SciLifeLab
• Mätning av dsDNA koncentration
broad/low range, (Qubit)
• Nextera XT DNA sample preparation guide (Illumina):
 Dilution of DNA, DNA measurement
 Tagmentation of genomic DNA (PCR), library preparation
 PCR clean up of library fragments
 Fragment analysis
 DNA measurement
 Dilution of amplicon libraries, NaOH treatment (average length,
DNA konc)
 Pooling/dilution of amplicon libraries, ”sample” concentration
12pM in 600 microliter to the instrument
 Add Illumina sequence control, 1% PhiX
 Heat denaturation before sequencing
Metoder på SciLifeLab
• Miseq systems user guide (Illumina):
 Wash Miseq with Tween 20 before/after run
 Loading of flow cell, pooled library into
reagent cartridge, buffer, waste bottle
 Load ”Sample sheet” on Miseq (sample
ID+tags)
 Cluster generation in flow cell
 Sequencing by synthesis (SBS-technology)
http://www.illumina.com/t echnology/nextgeneration-sequencing/sequencingtechnology.html
 Analysis time approx 72 h
 Up to 25 million reads/run in one flowcell
 Run QC; length of reads, cluster density
www.Illumina.com
Bioinformatisk analys
av NGS data
• Rådatat är svart/vita foton från flödescellen (.bcl files)
• Teoretisk “coverage”:
#reads x read length
#samples x genome size
• Demultiplexing, .fastq files (sample name, tags), forward och reverse
• Quality trimming, remove tags, .fasta files
• Assembly av data till contigs (SPAdes genome assembler, RAY)
Contigs: dependent on read lenght, coverage
• Summan av contigs = genomet + plasmider
• Analysen utförs på assembled datasets (contigs)
Bioinformatisk översikt (UNIX)
1) Bcl → FastQ
Demultiplexing
sample_001_R1_fastq
sample_001_R2_fastq
4 rader/read:
@miseq-{FC10} {BARCODE}
ATGCCGTTAGCCTCTGAA….
+
i&AWT!$....
2) Removal of duplicates, adaptor removal, quality trimming, k-mer 30bp (fastUniq,
Seqprep), FastQC report
3) Assembly (SPAdes, RAY)
sample_001_contigs.fasta
>contig_123
ATGCCGTTAGCCTCTGAA….
4) Tre olika dataset: hela arvsmassan, kromosom, plasmid
5) Analys med gratis mjukvara: Resfinder, Virulencefinder, Plasmidfinder, MLST….
6) Fylogenetisk gruppering med 4 primerpar (Doumith et al JCM 2012)
Mjukvara för NGS-dataanalys
http://www.genomicepidemiology.org/
https://cge.cbs.dtn.dk
NGS-dataanalys
Referenser tillgängliga för mjukvaran/databasen
• Dataset: approx 5 MB/sample, contigs > whole genome
One bacterial genome approx a few hundred contigs
• Uploads: assembled contigs, in fasta-format
SPAdes: all contigs (chromosomal and plasmids)
RAY: all contigs, chromosomal contigs, plasmid contigs (high copy no=more reads)
• Species finder: 16SrRNA based species identification
• Pathogen finder: “The input organism was predicted as human pathogen”,
matched family 100%, complete genome reference from NCBI database
• Resfinder: Select ID threshold (98-100%), minimum length overlap (60%)
no results = no resistance genes found
• Virulence finder: Select species, threshold for ID (98-100%), type of reads
Virulence factor, protein function
• Plasmid finder: Select database, threshold for ID (95-100%), type of reads
Plasmid/Locusname or No plasmid replicons found
• MLST: Select MLST configuration, E coli #1 (7 genes), E coli #2 (8 genes),
type of reads (also pMLST available)
Typing results ST = Sequence type
Patient Isolate
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
1 E coli ESBL
2 E coli ESBL
3 E coli ESBL
4 E coli ESBL
5 E coli ESBL
6 E coli ESBL
7 E coli ESBL
8 E coli ESBL
9 E coli ESBL
10 E coli
11 E coli
12 E coli
13 E coli
14 E coli
15 E coli
16 E coli
17 E coli
18 E coli
19 E coli
20 E coli
21 E coli
Sample
type
MLST
#1
Urine
Urine
Other
Urine
Blood
Urine
Urine
Urine
Blood
Urine
Urine
Other
Urine
Urine
Blood
Urine
Urine
Urine
Urine
Blood
Urine
ST-127
ST-10
ST-10
ST-131
ST-12
ST-12
ST-38
ST-69
ST-156
ST-80
ST-69
ST-744
ST-744
ST-91
ST-48
ST-48
ST-127
ST-131
ST-131
ST-2448
ST-2448
No. of
plasmids
>95%
No plasmids
2
5
3
5
6
1
4
2
No plasmids
3
4
2
3
No plasmids
No plasmids
No plasmids
No plasmids
No plasmids
2
2
No. of
virulence
genes
>98%
8
2
4
6
8
8
4
4
4
11
6
2
2
5
2
2
8
3
3
3
3
No. of
Phylogenetic
resistance group
genes
>98%
1
B2
8
A
14
A
7
A
2
D
9
A
3
A
11
D
2
A
0
A
7
D
10
A
10
A
0
D
0
A
0
A
0
A
0
B1
0
B1
5
A
5
A
Resultat från analys
•
•
•
•
•
•
•
•
•
•
•
•
•
Par av isolat från samma patient, men olika provlokaler, gav nästan helt
identiska resultat för plasmider, resistens, virulens, MLST och fylogenetisk
gruppering
Ingen signifikant skillnad mellan isolat från olika lokaler
7/21 sekvenser gav E. coli med Speciesfinder, resten gav ”Failed result” (Shigella
boydii/E coli)
Pathogenfinder föreslog match med E. coli UTI89 complete genome
De fyra vanligast förekommande virulensgenerna, iss, prfb, gad, vat, överrensstämde
väl med uropatogena E. coli (UPEC)
De flesta virulens- och resistensgenerna lokaliserades till plasmiderna
Fem av virulensgenerna återfanns i kromosomdatasetet, men 3/5 hittades inte i
plasmiddatasetet
E. coli ESBL hade (statistiskt signifikant) fler plasmider och resistensgener än E. coli
9/9 E. coli ESBL och 1/12 E. coli hade resistensgener (100% match) mot Beta-lactam
antibiotika vilket överensstämde väl med fenotypen
7/12 E. coli hade inga resistensgener
De flesta virulens- och resistensgenerna lokaliserades till plasmiderna
MLST #1 gav fler ST resultat än MLST#2
Fylogenetisk gruppering stämde väl med övriga resultat
Statistisk analys (SPSS)
Isolat
Antal plasmider
E. coli ESBL
E. coli
Antal
virulensgener
E. coli ESBL
E. coli
Antal
resistensgener
E. coli ESBL
E. coli
Median
Antal
isolat
IQR
P-värde*
9
3
4
12
1
3
9
4
4
12
3
4
9
7
7
12
0
8
IQR= Inter Quartile Range
*P värde efter Bonferroni korrigering visas i parentes.
0,049 (0,147)
0,148 (0,444)
0,049 (0,147)
Framtida planer
NGS på fler av isolaten insamlade under sepsisstudien
Ansökan inskickad till SciLifeLab, ”Biodiversity”, Maj 2015
NGS inom klinisk diagnostik i framtiden?