Induktivismens återkomst?
eller snarare
relationen mellan experiment och
hypotesbildning inom modern molekylärbiologi
FYTA13, Januari 2011
Henrik Jönsson
Beräkningsbiologi & biologisk fysik
Institutionen för astronomi och teoretisk fysik
relationen mellan experiment och
hypotesbildning inom modern molekylärbiologi
och
var kommer matematisk beskrivning
och tekniska framsteg in?
http://www.thep.lu.se/~henrik/fyta13/fyta13Slides.pdf
Introduktion, dagens mål
• Diskutera
experiment-hypotes relationen i förhållande till
induktiv och hypotetisk-deduktiv metod (falsifikationism)
• Exemplifiera
med hjälp av några moderna biologiska
problemställningar
Introduktion, induktiv metod
Objektiv
datainsamling
Hypoteser
och teorier
Intro, hypotetisk-deduktiv metod
Hypoteser
och teorier
Experiment för att
verifiera eller falsifiera
hypotes
Falsifikationism: fokusera på att falsifiera hypoteser
Introduktion, tekniska framsteg
Tekniska
framsteg
Hypoteser
och teorier
Jmf Galileos teleskop
Experiment
och data
“eine Wissenschaft, aber nicht Wissenschaft”
Immanuel Kant
Kriteriet för äkta vetenskap ligger i dess
relation till matematiken
Introduktion, matematisk beskrivning
Tekniska
framsteg
Experiment
och data
Hypoteser
och teorier
Modeller
Matematisk
beskrivning
Kvantifiering
What is life?
What is life?
Livets beståndsdelar
Celler, livets rum
Djur
Växter
Bakterier
Celler, livets dynamiska rum
Djur
Växter
Bakterier
Hur går det till?
DNA, ritningen
30000 gener
5 miljarder bp
2 meter
Proteiner, funktionen
exempel
hemoglobin
binder syre
långa sekvenser av aminosyror
3D strukturen bestämmer funktion
Molekylärbiologins centrala dogma
Reglering av gener
Vad bestämmer en stamcells öde ....
Embryonal stamcell
Neuron
Röd blodkropp
…och hur omprogrammerar man en mogen cell till något annat?
Embryonal stamcell
Muskel
Signalering mellan celler
Signalering mellan celler
Signalering mellan celler
Skottets stamcellsnich
Stamcellsreglering i skottet
• CLV3
markerar stamceller och WUS ‘definerar’ organiserande
center
• WUS
aktiverar CLV3 (stamceller)
• CLV3/CLV1
trycker ner WUS
CLV3 extracellular peptid
CLV1 receptor
WUS transkriptionsfaktor
Växtceller mycket kapabla
Nature 415, 751-754, (2002)
Sammanfattning, organismer styrs av
• Gener
som reglerar varandra
• Signalmolekyler
som
transporteras mellan celler
• Komplicerade
växelverkningar
Komplexiteten stor
Protein-protein växelverkningar i jäst
Komplexiteten stor
Ordning kan uppkomma ur komplexiteten
Paradigmskifte för biologi? (mm?)
S Kauffman, At home in the universe
jmf S Wolfram, A new kind of science
Tekniska framsteg
Tekniska framsteg
del 1
omics
Tekniska framsteg
del 1
omics
Tekniska framsteg, del2:GFP
Tekniska framsteg, del2:GFP
Vetenskapsteoretiska bakgrunden
Vetenskapsteoretiska bakgrunden
Chalmers, kapitel 1-6
Idealbild av vetenskap
• Vetenskaplig
kunskap är bevisad
• Vetenskapliga
fakta
• Vetenskap
teorier är rigoröst härledda från experimentella
är objektiv
• Vetenskaplig
kunskap är pålitlig för den är objektivt bevisad
Naiv induktivism
• Försök
till att formalisera idealbilden av vetenskap
Objektiv
datainsamling
Hypoteser
och teorier
Förutsägelser och
förklaringar
Induktiv
generalisering
Jmf Chalmers regnbågeexempel
Induktiv generalisering
Tillåten om:
• Antal
mätningar stort
• Utförda
• Inga
vid varierande betingelser
experiment i konflikt med teorin
Induktion, problem
Objektiva mätningar
• (uttalanden
•T
om) mätningar förutsätter någon teori
ex val av mätta variabler
Subjektivitet minimeras med kvantitativa
mätningar (jmf Chalmers röntgenstudent)
Kvantitativ data
• Objektiv
• Beteende
precist beskrivet
• Experiment
• Direkt
jämförbara
jämförbar med matematiska modeller
Exempel, hur många celler?
Exempel, hur många celler?
Algoritm kanske inte bättre, men ger
konsistent reproducerbart (56) resultat!
Exempel 2, hur mycket WUS?
Green WUS::GFP
Red membrane stain
WUS “concentration”
Falsifikationism, utgångspunkter
• Observationer
• Teorier
föregås av teori (hypoteser)
kan inte verifieras som sanna från observationer
• Vetenskap
utvecklas genom ‘trial and error’ och bäst
möjliga (tillgängliga) teori överlever
Falsifikationism
Hypotetisk-deduktiv metod
Hypoteser
och teorier
Experiment
Verifiera (för tillfället)
Falsifiera (för alltid)
Falsifikationism, falsifierbarhet
• Vetenskapliga
• Precisa
hypoteser måste vara tydliga - jmf politiker
hypoteser bättre
-F=ma
- en kropps acceleration påverkas av krafter
Matematisk beskrivning ger precision
Exempel 1, cancer
“Klassisk” molekylärbiologi
• Gen
-> protein -> funktion
• Hypotes: gen A orsakar cancer
• Verifierbar/falsifierbar i experiment
• Framgångsrik
metod (hypotetisk-deduktiv)
• Kan också ge mekanism
• Även möjligt att få fram inbördes relationer mellan gener
“Klassisk” molekylärbiologi
• Hypotes: gen A
orsakar cancer
• (Verifierbar/falsifierbar i experiment)
• Problem
med komplexitet
• 30000 gener!
• 30000x29999
• Osv…
~ 10^9 par av gener
Lösning, mät allt utan specifik hypotes
Samla statistik från kända fall
Identifiera viktiga regler/gener
Gene expression profiling predicts clinical outcome of breast cancer
Van 't Veer et al., Nature 415, 530-536 (2002)
97 tumörer
46 utvecklade metastaser inom 5 år
70-gens expression-profil gav prognos-värde
Artificiella neuronnät
Matematisk induktivism?
Riktiga neuronnät
~1,000,000,000,000
neuroner
~1,000,000,000,000,000
kopplingar
Artificiell förenkling
Koppla ihop flera neuroner till ett
större nätverk
Matematisk modell
Grafisk representation
Artificiella neuronnätverk
Output o
mål: bra/dålig prognos (0/1)
Parametrar w
Input = genuttrycksvariabler
Justera parameterar w så att model output o
stämmer med måldata
Träning av ANN är en iterativ process!
Maskininlärning för klassificering
går ut på att hitta beslutsgränser!
X2
Frisk
Frisk/Sjuk
Sjuk
Frisk
Sjuk
X1
Linjära beslutsgränser!
Frisk
Sjuk
Icke-linjära beslutsgränser!
ANN har fördelen
med att ”kunna”
vara icke-linjär!
Frisk
Sjuk
Dålig generalisering (överinlärning)
Frisk
Sjuk
Induktiv metod
• Mät
alla gener
• ->
generera “hypoteser” via statistik (träning)
• ->
Prediktioner för nya mätningar (test)
• Utnyttjar
komplexiteten
• Prediktioner
• Inte
inte samma som hypoteser
alltid lättverifierade hypoteser
• Ingen
mekanistisk förklaring
Exempel 2, systembiologi
Ingenjörsperpektiv
Wright brothers
O(100) komponenter
Cellens molekyler
växelverkar enligt
liknande principer
Boeing 747
O(10^7) komponenter
Kontrollsystem(återkopplingar)
• Moduler
• Redundanta system
•
Kan en biolog laga en radio?
Yuri Lazebnik, Cancer Cell (2002)
“Klassisk” molekylärbiologi
• Slå
ut gener slumpvis
• Påverkar cancer?
• Identifiera gen och defeniera hypotes
• Problem
med komplexitet
• 30000 gener!
• Genen påverkar tillsammans med andra gener i
dynamiskt nätverk
Systembiologi, metoden
Experiment
Hypoteser
Matematiska
modeller
Datorsimuleringar
Skapa matematisk modell
• Hypoteser
precist definierade
• Alla
antaganden beskrivna (även utelämnade faktorer/
gener)
• Genererar
kvantitativa förutsägelser
• Kan “förklara” ointuitiva
• Varierade
beteenden
betingelser (väl)definierat
Kan modellen förklara data?
• Möjligt
att verifiera/falsifiera
• Verifiering
• Lätt
vid JA svar
att utöka tester för verifiering
• Svårare
att falsifiera
Exempel, TGF-beta
Exempel, TGF-beta
Exempel, TGF-beta
Kan modellen förklara data?
• Falsifiering
kräver att parameterrymden har undersökts
(olika parametrar ger olika beteende).
• Kräver
kanske uttömmande av ekvationer.
• Jämför
enkel falsifiering (hitta svart svan).
Problem för modeller
• Bilogiska
organismer inte designade av ingenjörer
• Underliggande
mekanismer inte alltid kända
• Parametervärden
oftast inte kända
• Även
om hypoteser formaliseras finns det ett oändligt
antal att testa…
• Komplexiteten
extrem, modellen förenkling
Induktiv modellering
• Utgå
från uppmätt data (t ex koncentrationsdynamik)
• Välj
ut modeller mot hur bra de förutsäger data
• Kan
identifiera parametervärden
• Kan
också identifiera växelverkningar (nya hypoteser)
Induktiv modellering, TGFbeta
Analysis
Calibration
Optimization
Adjust parameters
Solve ODEs
Filtering
Adjust TGF! dose
Solve ODEs
300
Clustering
35
Group 1
Group 2
Blind test
Robustness
Melke et al (2006)
"
15 20
Generera modeller som följer data
Analysis
Calibration
Optimization
"
Adjust parameters
Solve ODEs
Filtering
Adjust TGF! dose
Solve ODEs
300
Clustering
35
Group 1
Group 2
Blind test
Robustness
Melke et al (2006)
15
20
Gruppera genererade modeller
Hierarchical clustering
Analysis
Calibration
Optimization
"
Adjust parameters
Solve ODEs
Filtering
Adjust TGF! dose
Solve ODEs
300
Clustering
35
Group 1
Group 2
15
20
Group 1
Blind test
Robustness
Group 2
Principal Component 2
Principal Component Analysis
Principal Component 1
Melke et al (2006)
Analysera de olika modellerna
Grupp 1
har ingen
feedback
Melke et al (2006)
Analysera de olika modellerna
A
300
Group 1
2
Clustering
Analysis
Störning
Concentration / arbitrary units
Filtering
Adjust TGF! dose
Solve ODEs
Robusthet
"
35
1
Group 1
Group 2
Blind test
Robustness
15
20
0
1
1
0.5
0
B
2
Group 2
0
5
10
15 20
parameter
25
30
Olika prediktioner
Melke et al (2006)
Group 1, Smad7 knock-out
0
Concentration / arbitrary units
Calibration
Optimization
Adjust parameters
Solve ODEs
50
100 150 200
time / minutes
250
Group 2, Smad7 knock-out
1
0.5
PSmad1(model)
PSmad2(model)
0
0
50
100 150 200
time / minutes
250
Induktiv modellering
sammanfattning
• Utgår
från data för att generera modell
• Genererar
konkreta hypoteser
• Genererar
konkreta förutsägelser
• Hur
mycket datorkraft behövs?
Stamcellsreglering i skottet
• CLV3
marks stem cells and WUS ‘defines’ an organizing center
• WUS
activates CLV3 (stem cells)
• CLV3/CLV1
network repress WUS
CLV3 extracellular peptid
CLV1 receptor
WUS transkriptionsfaktor
Nätverk formaliserat i modeller
Kvantitativ experimentell templat
Green WUS::GFP
Red membrane stain
WUS “concentration”
WUS simulering
Cellvolymer, väggareor och grannskap från templat
Templat
Simulering
Metod, i praktiken
• Hypoteser
beskrivna i matematik
• Två
modeller, en verifierad (för tillfället), en falsifierad
(för alltid?)
• Typisk
hypotetisk-deduktiv metod, fast med matematik
Parameter optimization: from WUS
WUS model from Jönsson et al (2005)
?
‘Optimize’ hypotheses for WUS -> CLV3
WUS + L1
Jönsson et al (2003)
WUS+apical
WUS
directional
WUS + PZ
CLV3 optimering
clv3
wus
Jönsson et al (2003, 2005)
Sammanfattning
Sammanfattning
Hypoteser
och teorier
Experiment
och data
Kanske inte så viktigt vilket som kommer först.
Sammanfattning
Hypoteser
och teorier
T1
T2
T3
T4
Matematisk
beskrivning
Experiment
och data
Tekniska
framsteg
E1
E2
E3
Växelverkan viktig!
E4
Sammanfattning
Kvantitativ data ger objektivitet
(möjligt genom tekniska framsteg)
Matematisk formulering ger distinkta
hypoteser, också om vad som antas och
utelämnas
Komplexiteten gör falsifikation svår
Mängden kvantitativ data gör att ‘induktiva’
algoritmer kan vara användbara/nödvändiga
Avslutning
Vad är en bra modell?
Är hypotes och modell samma sak?
Antalet parametrar problem, jmf ANN
Metoder för att validera modeller viktiga
modellvalidering
Modell(er)
Data
modellvalidering
optimera / träna
filtrera / testa
analysera / validera
Model(s)
Data
Beräkningsbiologi & biologisk fysik
Tobias Ambjörnsson
Patrik Edén
Anders Irbäck
Henrik Jönsson
Mattias Ohlsson
Carsten Peterson
Bo Söderberg
Stefan Wallin
4 postdocs
6 doktorander
3 mjukvaruutvecklare