Induktivismens återkomst? eller snarare relationen mellan experiment och hypotesbildning inom modern molekylärbiologi FYTA13, Januari 2011 Henrik Jönsson Beräkningsbiologi & biologisk fysik Institutionen för astronomi och teoretisk fysik relationen mellan experiment och hypotesbildning inom modern molekylärbiologi och var kommer matematisk beskrivning och tekniska framsteg in? http://www.thep.lu.se/~henrik/fyta13/fyta13Slides.pdf Introduktion, dagens mål • Diskutera experiment-hypotes relationen i förhållande till induktiv och hypotetisk-deduktiv metod (falsifikationism) • Exemplifiera med hjälp av några moderna biologiska problemställningar Introduktion, induktiv metod Objektiv datainsamling Hypoteser och teorier Intro, hypotetisk-deduktiv metod Hypoteser och teorier Experiment för att verifiera eller falsifiera hypotes Falsifikationism: fokusera på att falsifiera hypoteser Introduktion, tekniska framsteg Tekniska framsteg Hypoteser och teorier Jmf Galileos teleskop Experiment och data “eine Wissenschaft, aber nicht Wissenschaft” Immanuel Kant Kriteriet för äkta vetenskap ligger i dess relation till matematiken Introduktion, matematisk beskrivning Tekniska framsteg Experiment och data Hypoteser och teorier Modeller Matematisk beskrivning Kvantifiering What is life? What is life? Livets beståndsdelar Celler, livets rum Djur Växter Bakterier Celler, livets dynamiska rum Djur Växter Bakterier Hur går det till? DNA, ritningen 30000 gener 5 miljarder bp 2 meter Proteiner, funktionen exempel hemoglobin binder syre långa sekvenser av aminosyror 3D strukturen bestämmer funktion Molekylärbiologins centrala dogma Reglering av gener Vad bestämmer en stamcells öde .... Embryonal stamcell Neuron Röd blodkropp …och hur omprogrammerar man en mogen cell till något annat? Embryonal stamcell Muskel Signalering mellan celler Signalering mellan celler Signalering mellan celler Skottets stamcellsnich Stamcellsreglering i skottet • CLV3 markerar stamceller och WUS ‘definerar’ organiserande center • WUS aktiverar CLV3 (stamceller) • CLV3/CLV1 trycker ner WUS CLV3 extracellular peptid CLV1 receptor WUS transkriptionsfaktor Växtceller mycket kapabla Nature 415, 751-754, (2002) Sammanfattning, organismer styrs av • Gener som reglerar varandra • Signalmolekyler som transporteras mellan celler • Komplicerade växelverkningar Komplexiteten stor Protein-protein växelverkningar i jäst Komplexiteten stor Ordning kan uppkomma ur komplexiteten Paradigmskifte för biologi? (mm?) S Kauffman, At home in the universe jmf S Wolfram, A new kind of science Tekniska framsteg Tekniska framsteg del 1 omics Tekniska framsteg del 1 omics Tekniska framsteg, del2:GFP Tekniska framsteg, del2:GFP Vetenskapsteoretiska bakgrunden Vetenskapsteoretiska bakgrunden Chalmers, kapitel 1-6 Idealbild av vetenskap • Vetenskaplig kunskap är bevisad • Vetenskapliga fakta • Vetenskap teorier är rigoröst härledda från experimentella är objektiv • Vetenskaplig kunskap är pålitlig för den är objektivt bevisad Naiv induktivism • Försök till att formalisera idealbilden av vetenskap Objektiv datainsamling Hypoteser och teorier Förutsägelser och förklaringar Induktiv generalisering Jmf Chalmers regnbågeexempel Induktiv generalisering Tillåten om: • Antal mätningar stort • Utförda • Inga vid varierande betingelser experiment i konflikt med teorin Induktion, problem Objektiva mätningar • (uttalanden •T om) mätningar förutsätter någon teori ex val av mätta variabler Subjektivitet minimeras med kvantitativa mätningar (jmf Chalmers röntgenstudent) Kvantitativ data • Objektiv • Beteende precist beskrivet • Experiment • Direkt jämförbara jämförbar med matematiska modeller Exempel, hur många celler? Exempel, hur många celler? Algoritm kanske inte bättre, men ger konsistent reproducerbart (56) resultat! Exempel 2, hur mycket WUS? Green WUS::GFP Red membrane stain WUS “concentration” Falsifikationism, utgångspunkter • Observationer • Teorier föregås av teori (hypoteser) kan inte verifieras som sanna från observationer • Vetenskap utvecklas genom ‘trial and error’ och bäst möjliga (tillgängliga) teori överlever Falsifikationism Hypotetisk-deduktiv metod Hypoteser och teorier Experiment Verifiera (för tillfället) Falsifiera (för alltid) Falsifikationism, falsifierbarhet • Vetenskapliga • Precisa hypoteser måste vara tydliga - jmf politiker hypoteser bättre -F=ma - en kropps acceleration påverkas av krafter Matematisk beskrivning ger precision Exempel 1, cancer “Klassisk” molekylärbiologi • Gen -> protein -> funktion • Hypotes: gen A orsakar cancer • Verifierbar/falsifierbar i experiment • Framgångsrik metod (hypotetisk-deduktiv) • Kan också ge mekanism • Även möjligt att få fram inbördes relationer mellan gener “Klassisk” molekylärbiologi • Hypotes: gen A orsakar cancer • (Verifierbar/falsifierbar i experiment) • Problem med komplexitet • 30000 gener! • 30000x29999 • Osv… ~ 10^9 par av gener Lösning, mät allt utan specifik hypotes Samla statistik från kända fall Identifiera viktiga regler/gener Gene expression profiling predicts clinical outcome of breast cancer Van 't Veer et al., Nature 415, 530-536 (2002) 97 tumörer 46 utvecklade metastaser inom 5 år 70-gens expression-profil gav prognos-värde Artificiella neuronnät Matematisk induktivism? Riktiga neuronnät ~1,000,000,000,000 neuroner ~1,000,000,000,000,000 kopplingar Artificiell förenkling Koppla ihop flera neuroner till ett större nätverk Matematisk modell Grafisk representation Artificiella neuronnätverk Output o mål: bra/dålig prognos (0/1) Parametrar w Input = genuttrycksvariabler Justera parameterar w så att model output o stämmer med måldata Träning av ANN är en iterativ process! Maskininlärning för klassificering går ut på att hitta beslutsgränser! X2 Frisk Frisk/Sjuk Sjuk Frisk Sjuk X1 Linjära beslutsgränser! Frisk Sjuk Icke-linjära beslutsgränser! ANN har fördelen med att ”kunna” vara icke-linjär! Frisk Sjuk Dålig generalisering (överinlärning) Frisk Sjuk Induktiv metod • Mät alla gener • -> generera “hypoteser” via statistik (träning) • -> Prediktioner för nya mätningar (test) • Utnyttjar komplexiteten • Prediktioner • Inte inte samma som hypoteser alltid lättverifierade hypoteser • Ingen mekanistisk förklaring Exempel 2, systembiologi Ingenjörsperpektiv Wright brothers O(100) komponenter Cellens molekyler växelverkar enligt liknande principer Boeing 747 O(10^7) komponenter Kontrollsystem(återkopplingar) • Moduler • Redundanta system • Kan en biolog laga en radio? Yuri Lazebnik, Cancer Cell (2002) “Klassisk” molekylärbiologi • Slå ut gener slumpvis • Påverkar cancer? • Identifiera gen och defeniera hypotes • Problem med komplexitet • 30000 gener! • Genen påverkar tillsammans med andra gener i dynamiskt nätverk Systembiologi, metoden Experiment Hypoteser Matematiska modeller Datorsimuleringar Skapa matematisk modell • Hypoteser precist definierade • Alla antaganden beskrivna (även utelämnade faktorer/ gener) • Genererar kvantitativa förutsägelser • Kan “förklara” ointuitiva • Varierade beteenden betingelser (väl)definierat Kan modellen förklara data? • Möjligt att verifiera/falsifiera • Verifiering • Lätt vid JA svar att utöka tester för verifiering • Svårare att falsifiera Exempel, TGF-beta Exempel, TGF-beta Exempel, TGF-beta Kan modellen förklara data? • Falsifiering kräver att parameterrymden har undersökts (olika parametrar ger olika beteende). • Kräver kanske uttömmande av ekvationer. • Jämför enkel falsifiering (hitta svart svan). Problem för modeller • Bilogiska organismer inte designade av ingenjörer • Underliggande mekanismer inte alltid kända • Parametervärden oftast inte kända • Även om hypoteser formaliseras finns det ett oändligt antal att testa… • Komplexiteten extrem, modellen förenkling Induktiv modellering • Utgå från uppmätt data (t ex koncentrationsdynamik) • Välj ut modeller mot hur bra de förutsäger data • Kan identifiera parametervärden • Kan också identifiera växelverkningar (nya hypoteser) Induktiv modellering, TGFbeta Analysis Calibration Optimization Adjust parameters Solve ODEs Filtering Adjust TGF! dose Solve ODEs 300 Clustering 35 Group 1 Group 2 Blind test Robustness Melke et al (2006) " 15 20 Generera modeller som följer data Analysis Calibration Optimization " Adjust parameters Solve ODEs Filtering Adjust TGF! dose Solve ODEs 300 Clustering 35 Group 1 Group 2 Blind test Robustness Melke et al (2006) 15 20 Gruppera genererade modeller Hierarchical clustering Analysis Calibration Optimization " Adjust parameters Solve ODEs Filtering Adjust TGF! dose Solve ODEs 300 Clustering 35 Group 1 Group 2 15 20 Group 1 Blind test Robustness Group 2 Principal Component 2 Principal Component Analysis Principal Component 1 Melke et al (2006) Analysera de olika modellerna Grupp 1 har ingen feedback Melke et al (2006) Analysera de olika modellerna A 300 Group 1 2 Clustering Analysis Störning Concentration / arbitrary units Filtering Adjust TGF! dose Solve ODEs Robusthet " 35 1 Group 1 Group 2 Blind test Robustness 15 20 0 1 1 0.5 0 B 2 Group 2 0 5 10 15 20 parameter 25 30 Olika prediktioner Melke et al (2006) Group 1, Smad7 knock-out 0 Concentration / arbitrary units Calibration Optimization Adjust parameters Solve ODEs 50 100 150 200 time / minutes 250 Group 2, Smad7 knock-out 1 0.5 PSmad1(model) PSmad2(model) 0 0 50 100 150 200 time / minutes 250 Induktiv modellering sammanfattning • Utgår från data för att generera modell • Genererar konkreta hypoteser • Genererar konkreta förutsägelser • Hur mycket datorkraft behövs? Stamcellsreglering i skottet • CLV3 marks stem cells and WUS ‘defines’ an organizing center • WUS activates CLV3 (stem cells) • CLV3/CLV1 network repress WUS CLV3 extracellular peptid CLV1 receptor WUS transkriptionsfaktor Nätverk formaliserat i modeller Kvantitativ experimentell templat Green WUS::GFP Red membrane stain WUS “concentration” WUS simulering Cellvolymer, väggareor och grannskap från templat Templat Simulering Metod, i praktiken • Hypoteser beskrivna i matematik • Två modeller, en verifierad (för tillfället), en falsifierad (för alltid?) • Typisk hypotetisk-deduktiv metod, fast med matematik Parameter optimization: from WUS WUS model from Jönsson et al (2005) ? ‘Optimize’ hypotheses for WUS -> CLV3 WUS + L1 Jönsson et al (2003) WUS+apical WUS directional WUS + PZ CLV3 optimering clv3 wus Jönsson et al (2003, 2005) Sammanfattning Sammanfattning Hypoteser och teorier Experiment och data Kanske inte så viktigt vilket som kommer först. Sammanfattning Hypoteser och teorier T1 T2 T3 T4 Matematisk beskrivning Experiment och data Tekniska framsteg E1 E2 E3 Växelverkan viktig! E4 Sammanfattning Kvantitativ data ger objektivitet (möjligt genom tekniska framsteg) Matematisk formulering ger distinkta hypoteser, också om vad som antas och utelämnas Komplexiteten gör falsifikation svår Mängden kvantitativ data gör att ‘induktiva’ algoritmer kan vara användbara/nödvändiga Avslutning Vad är en bra modell? Är hypotes och modell samma sak? Antalet parametrar problem, jmf ANN Metoder för att validera modeller viktiga modellvalidering Modell(er) Data modellvalidering optimera / träna filtrera / testa analysera / validera Model(s) Data Beräkningsbiologi & biologisk fysik Tobias Ambjörnsson Patrik Edén Anders Irbäck Henrik Jönsson Mattias Ohlsson Carsten Peterson Bo Söderberg Stefan Wallin 4 postdocs 6 doktorander 3 mjukvaruutvecklare