Kommentar till inlämningsuppgiften vid EBM-dagen, termin 5 Uppgiften Du är ST-läkare på medicinkliniken i Eskilstälje och har fått i uppgift att uppdatera klinikens behandlingsrutiner för diabetes mellitus typ-2. Du har kommit till det icke-farmakologiska omhändertagandet – närmare bestämt kostråd – och kontaktar därför klinikens dietist. Tillsammans konstaterar ni att kostråden hittills i stort sett följer rekommendationerna från European Associationen for the Study of Diabetes (EASD), nämligen lågt fettintag (mindre än 35% av totala energiintaget [35 E%]; mindre än 30 E% om patienten är överviktig och behöver gå ned i vikt), högt kolhydratintag (45-60 E%, gärna mycket fibrer och lågt glykemiskt index - GI) och ett proteinintag på 10-20 E%. Ni konstaterar också att en stor del av era patienter med typ-2 diabetes är överviktiga eller obesa. Dietisten säger att flera gamla rapporter talar för att ett högt kolhydratintag kan förvärra diabetespatienters hyperglykemi och minska halterna av det ”goda” HDL-kolesterolet. Hon säger också att dieter med extremt lågt kolhydratintag, som Atkinsdieten med ett initialt kolhydratintag på 4-5 E% och ett fettintag på cirka 70 E%, har visat goda resultat vad gäller viktnedgång och blodfetter hos överviktiga friska personer. Därtill visar hon två intressanta artiklar baserade på randomiserade studier från 2005 och 2006, som båda tyder på att en låg-kolhydratdiet åtminstone på kort sikt kan ge bättre viktnedgång, bättre glycemisk kontroll och en mer gynnsam lipoproteinprofil än en traditionell låg-fettdiet1. Så varför inte överväga att gå över till att rekommendera en låg-kolhydratdiet till typ-2 diabetes-patienterna, åtminstone de med övervikt/obesitas? En strikt Atkins-diet kanske är att ta i. Men ett kolhydratintag på under 40 E% kanske skulle räcka. Med ett proteinintag på 20 E% innebär den dieten ett fettintag på 40 E%. Du lovar att undersöka det aktuella kunskapsläget . Du börjar med att leta efter en systematisk översikt, och eftersom du vet att översikterna på Cochrane Library i princip alltid är systematiska och för det mesta välgjorda så börjar du med att söka där. Du skriver ”type-2 diabetes diet” i sökrutan och får upp 38 Cochrane Reviews, och redan som nummer 2 finns den mest relevanta: Nield L, More H, Hooper L, et al. Dietary advice for treatment of type 2 diabetes mellitus in adults. I träfflistan står årtalet 2009, vilket ju låter ganska aktuellt. När du laddar ner pdf:en kan du läsa följande under rubriken ”Studies that assessed low-fat diets versus moderate fat or low-carbohydrate diets”: ” ..five out of ….six trials were assessed to be at a high risk of bias…” och “…no firm conclusions could be drawn…” Och under Authors’ conclusions: “There are no high quality data on the efficacy of the dietary treatment of type 2 diabetes…” och “There is an urgent need for well-designed studies which examine a range of interventions, at various points during followup, although there is a promising study currently underway.“ När du tittar på första textsidan (med abstractet) ser du att översikten ska refereras som Cochrane Database Syst Rev. 2007;(3):CD004097 (alltså inte 2009), och när du tittar ännu närmare ser du följande deklaration: Review content assessed as up-to-date: 30 October 2006. 1 Översikten är alltså åtta år gammal, och ingen av de studier som dietisten visade fanns citerad. Redan när översikten skrevs antyddes att nya data var på väg. Därför bestämmer du dig att gå vidare med en sökning på PubMed. För att underlätta läsningen av artiklar inom detta område, där intaget av kolhydrater, protein och fett omväxlande anges som energiprocent (E%) och omväxlande som gram per dag, påminns du om att energiinnehållet i kolhydrater och protein är cirka 4 kcal/gram, medan det i fett är cirka 9 kcal/gram. Tabellen nedan visar exempel på transformationen mellan E% och intag per dag: Vid 2000 kcal/dag Vid 1500 kcal/dag 4 E% 10 E% 30 E% 40 E% 4 E% 10 E% 30 E% 40 E% Kolhydrat 20 g/dag 50 g/dag 150 g/dag 200 g/dag 15 g/dag 38 g/dag 113 g/dag 150 g/dag Fett 9 g/dag 22 g/dag 67 g/dag 89 g/dag 7 g/dag 17 g/dag 50 g/dag 67 g/dag Protein 20 g/dag 50 g/dag 150 g/dag 200 g/dag 15 g/dag 38 g/dag 113 g/dag 150 g/dag ________________ 1 ) Pohl M, Mayr P, Metl-Roetzer, et al. Glycaemic control in type II diabetic tube-fed patients with a new enteral formula low in carbohydrates and high in monounsaturated fatty acids: a randomized controlled trial. Eur J Clin Nutr 2005;59:1221-32.: Bland 78 typ-2 diabetes-patienter med behov av sondmatning hade de 39 som under 12 veckor matades med en näringslösning med 37 E% kolhydrater och 45 E% fett ett signifikant lägre insulinbehov, blodglykos och HbA1C jämfört med de 39 som fick en näringslösning med samma energiinnehåll men bestående av 52 E% kolhydrater och 30 E% fett. Daly ME, Paisey R, Paisey R, et al. Short-term effects of severe dietary carbohydrate-restriction advice in Type 2 diabetes – a randomized controlled trial. Diabet Med 2006;23:15-20.: En RCT, där 102 obesa patienter med dåligt kontrollerad typ-2 diabetes randomiserades till en låg-kolhydratdiet med max 70 gram kolhydrater per dag (cirka 21 E% vid 1300 kcal) eller en lågfettdiet med samma energiinnehåll. Studien varade i 3 månader. I praktiken nådde de som randomiserats till låg-kolhydratdiet i medeltal 34 E% kolhydrat och 40 E% fett, med de som allokerats till lågfettdiet i medeltal intog 45 E% kolhydrat och 33 E% fett. Viktnedgången i låg-kolhydratgruppen var signifikant större än i låg-fettgruppen, och HDL ökade signifikant mer. 2 Svarsblankett Du måste börja med att skriva en PICO-fråga. Formulera den och motivera ditt val av avgränsningar: I EBM-sammanhang bör frågan vara så specifik som möjligt. Meningen är att svaret direkt ska kunna appliceras på en väldefinierad patientgrupp. Man vill inte ha ett svävande svar om hur det ligger till för olika undergrupper av sjukdomen i fråga, eller hur olika varianter av den aktuella behandlingen fungerar. I de flesta fall finns det många olika tänkbara utfall – i det aktuella fallet kan man tänka sig allt från det ”hårdaste” utfallet överlevnad, via incidens av hjärtinfarkt eller diabeteskomplikationer såsom retinopati, till intermediära surrogatutfall som viktnedgång, glykemisk kontroll, och blodfettmönster. Helst vill man ha en ja/nej-fråga. En sådan fråga bör ställas enligt den engelska PICO-modellen (Population/patientkategori – Intervention [alltså den behandling eller exponering som frågan gäller] – Control [vad som är jämförelsebetingelse – placebo? Annan specificerad behandling?] – Outcome [utfall]). En bra PICO-fråga kan formuleras som följer: Population/patientkategori Intervention Control Outcome Patienter med typ-2 diabetes mellitus Låg-kolhydratdiet Låg-fettdiet Glykemisk kontroll Eller mer fritt: Bland patienter med diabetes mellitus typ 2, leder låg-kolhydratdiet till en bättre glykemisk kontroll än vad låg-fettdiet gör? Men det finns många olika kategorier av patienter med diabetes mellitus typ 2, och det är inte väldefinierat vad som utgör en låg-kolhydratdiet eller en låg-fettdiet. Så man måste först fatta ett antal beslut: P: Patient/population: Definition av diabetes mellitus typ 2 är knappast kontroversiellt, men ska det vara diabetes med samtidig övervikt; eller läkemedelsbehandlad alternativt kostbehandlad diabetes? Skillnader mellan kostbehandlad och läkemedelsbehandlad diabetes kan påverka de studerade sambanden. Vid svår läkemedelsbehandlad diabetes måste man kanske justera doserna för att inte få hypoglykemi vid extrem låg-kolhydratkost, och det kan påverka utfallsmåtten. Likaså finns det perorala antidiabetesmedel som har viktuppgång som biverkan (ett problem om vikt är ett utfallsmått). I vår övning accepterar vi såväl exklusivt kostbehandlad som läkemedelsbehandlad (inklusive insulinbehandlad) diabetes. Men i ett annat sammanhang kanske du hade valt att ha en annan definition. I: Intervention: Vad ska betecknas som låg-kolhydratkost? Atkins-dieten är ju extrem och föreskriver högst 20 gram kolhydrat per dag (motsvarar 4% av totala energiintaget [4 E%] vid 2000 kcal/dag) under de 2 första veckorna – sedan får man vecka för vecka successivt öka kolhydratintaget med 5 gram per dag. I vår övning definierade vi låg-kolhydratdiet som en diet där ≤40 E% tillgodoses med kolhydrater (motsvarar 200 gram kolhydrat per dag vid 2000 kcal/dag). Eftersom proteinintaget brukar ligga runt eller strax under 20 E% blir då energiintaget i form av fett 40 E% (energin från 3 kolhydrater, fett och proteiner ska addera ihop till 100%1). Med den definitionen inkluderas också den ursprungliga Atkinsdieten. Återigen är det du som ställer frågan som måste bestämma, så i ett annat sammanhang kanske du hade bestämt dig för en annan definition. Ibland finner du, när du gjort dina första preliminära sökningar, att det inte finns några studier som exakt motsvarar din definition, men att det finns studier som använt en annorlunda definition. Kan resultat från studier som använt den definitionen överföras till den situation som du ursprungligen ville få belyst? Att svara på den frågan kräver medicinska grundkunskaper. Därför kan EBM aldrig ersätta din läkarutbildning. C: Comparison: Det är sannolikt oetiskt att allokera diabetespatienter till att äta vad som helst utan restriktioner. Alla får någon form av kostråd. Eftersom låg-fettdiet är det dominerande kostrådet som idag ges till patienter med typ-2 diabetes så är det den naturliga jämförelsebetingelsen, men det finns många varianter. Ett fettintag på 30 E% är ett vanligt behandlingsmål, men den i Sverige förhärskande rekommendationen från European Association for the Study of Diabetes (EASD) sätter gränsen vid 35 E% (30 E% om behov finns för viknedgång). Här handlar det ju om överviktiga patienter, så 30 E% verkar vara en lämplig ledstjärna. Vid dessa låg-fettdieter hamnar kolhydratintaget på 50-55 E%. Kolhydraternas sammansättning kan varieras, men ofta rekommenderas fullkornsprodukter och produkter med lågt glykemiskt index (GI). Vid övningen bestämde vi att ha en kost med ≤30 E% fett, 15-20 E% protein och 50-55 E% kolhydrat (med eller utan specificerat GIvärde) som jämförelse. En fråga som uppstår är om jämförelsen ska vara isokalorisk (dvs. om båda kosterna som jämförs i en studie ska ha samma energiinnehåll). Vid övningen krävde vi inte att de jämförda dieterna skulle ha samma energiinnehåll, dels därför att kaloribehovet ofta bestäms individuellt baserat på kroppsmått och grad av fysisk aktivitet, dels för att det, när ambitionen är att uppnå isokaloriska förhållanden, i praktiken är väldigt svårt att erhålla en perfekt balans mellan behandlingsarmarna. O: Outcome: Det finns ännu inga studier av tillräcklig storlek för att belysa hårda utfall som död, kardiovaskulär sjuklighet eller andra allvarliga diabeteskomplikationer, så man får fortfarande nöja sig med surrogatmått som glykemisk kontroll (förändring av HbA1C), viktnedgång, och förändring av lipidstatus (triglycerider, HDL kolesterol, kvoten total:HDL-kolesterol, triglycerider, LDL-kolesterol). De initiala studierna rörande låg-kolhydratkost var i regel korttidsstudier över veckor upp till 3 månader. Det har visat sig att metabola parametrar som vikt, HbA 1C, och blodfetter inte stabiliserat sig efter 3 månader, så status ≥1 år efter behandlingsstart bör vara utfallsmått. Man kan alltså specificera sin PICO-fråga enligt följande: Population/patientkategori Intervention Control Outcome Patienter med kost- eller läkemedelsbehandlad typ-2 diabetes mellitus och BMI ≥25 Låg-kolhydratdiet där ≤40 E% tillgodoses med kolhydrater Låg-fettdiet med ≤30 E% fett, 15-20 E% protein och 50-55 E% kolhydrat (med eller utan specificerat GI-värde) Förändring av HbA1C 1 år efter behandlingsstart Eller mer fritt: 1 Eftersom det inte är tillrådligt att öka proteinintaget hur mycket som helst innebär lågt kolhydratintag att andelen fett med automatik ökar. Därför kallas låg-kolhydratdieter ofta för ”low carbohydrate high fat” (LCHF)dieter. 4 Bland patienter med kost- eller läkemedelsbehandlad typ-2 diabetes mellitus och BMI ≥25, leder lågkolhydratdiet med ≤40 E% kolhydrater till större förbättring av HbA1C 1 år efter behandlingsstart än vad låg-fettdiet med ≤30 E% fett och 50-55% kolhydrat gör? Liknande frågor kan sedan ställas med förändring av vikt, HDL-kolesterol, triglycerider som utfall. De kan alla potentiellt besvaras med ett ja eller ett nej. Beskriv din sökstrategi: Cochrane Library I bakgrundsinformationen till uppgiften framgår att du redan sökt på Cochrane Library, men att den i och för sig helt relevanta översikten som du hittade inte var up-to-date. Som yrkesverksam läkare bör Cochrane Library alltid vara ditt förstahandsval av databas. Cochrane Library består (främst) av det som kallas Cochrane Reviews. Det är systematiska översikter, mycket noggrant utförda och man brukar säga att dessa hamnar högst upp i evidenshierarkin (se nedan), åtminstone om den systematiska översikten baserar sig på randomiserade kontrollerade prövningar (RCTs), vilket de flesta Cochrane-översikter gör. Man måste vara medveten om att det finns förhållandevis få Cochrane Reviews i Cochrane Library (drygt 5000), så sannolikheten för att hitta en översikt som exakt svarar mot din PICO-fråga är ganska liten. Å andra sidan gör det begränsade antalet att det är ganska lätt att söka: Man behöver i regel bara skriva en eller två söktermer för att få en träfflista som man lätt kan gå igenom manuellt. Till yttermera visso är Cochrane-översikternas titlar strukturerade enligt PICO-modellen och därmed är det mycket lätt att veta om en översikt är relevant för just dig. På skärmdumpen på nästa sida visas vad som kom fram när jag skrev in ”low-carbohydrate diet type 2 diabetes” i Cohrane Library’s sökruta: Upp till vänster (den övre röda pilen) finns en lista med träffkategorier (Cochrane Reviews; Other Reviews; Trials; Methods Studies; Technology Assessments; Economic Evaluations; Cochrane Groups) som man kan välja mellan genom att klicka i ringarna till vänster om kategorierna. Det visade sig finnas en Cochrane Review, och 40 Trials (i regel de randomiserade kontrollerade prövningar som beaktats i de listade Cochrane Reviews). När man klickar på en träffkategori listas alla enskilda träffar med titel, författare och klickbar länk lite längre ned på sidan (den nedre röda pilen). Som du märker var det den Cochrane Review som redan nämndes i bakgrunden till uppgiften, och som bara var up-to-date till och med 30 oktober 2006. 5 Systematiska och narrativa översikter (reviews) Här är det på sin plats med en allmän kommentar om översiktsartiklar (eller ”reviews”). Man brukar dela upp översikter i systematiska och narrativa (berättande). Systematiska översikter karaktäriseras av att de följer en strikt metodologi, och till skillnad från narrativa översikter finns det en metoddel, precis som i vanliga vetenskapliga originalartiklar. Metoddelen i vetenskapliga artiklar bör vara så utformad att andra forskare ska kunna göra om studien på precis samma sätt och på så sätt replikera resultaten. I metoddelen av systematiska översikter brukar man finna den vetenskapliga frågan (i idealfallet formulerad enligt PICO-modellen), en noggrann beskrivning av sökstrategier och av utfallet av sökningen, samt en detaljerad redogörelse för hur identifierade artiklar kvalitetsvärderades och hur resultaten sammanvägdes till en sammanfattande evidensgrad. En av poängerna med systematiken i sökningarna är att hitta ALLA relevanta originalartiklar, inte bara de som lättast kommer fram i en snabb sökning (det finns risk för att positiva studier publiceras i bättre tidskrifter och får större uppmärksamhet medan negativa studier tenderar att hamna på undanskymda platser i den medicinska litteraturen – publikationsbias!). I resultatdelen, eller som supplementärt material, bör det finnas en lista med de relevanta artiklar som förkastats, med skälen till varför de inte tagits med. Det bör också finnas tabeller som visar vilka studier som inkluderats, gärna med information om vissa nyckeldetaljer. Slutsatserna bör vara evidensgraderade. Om en systematisk översikt uppfyller dessa krav, bygger på flera välgjorda RCTs (randomiserade kontrollerade trials, se nedan) med samstämmiga resultat, och dessutom är 100% relevant för din frågeställning så är det bingo! I narrativa översiktsartiklar, å andra sidan, saknas garantier för att litteraturen dammsugits och att alla artiklar beaktats. Det finns sällan en kvalitetsvärdering av inkluderade artiklar, och slutsatserna är inte evidensgraderade. Även om det finns många bra narrativa översiktsartiklar (som kan vara väldigt värdefulla när man snabbt ska sätta sig in i ett nytt område) så finns det också många exempel på riktigt dålig och tendentiös redovisning. Vem som helst kan skriva en narrativ översikt; i typfallet är det en lokal auktoritet som ligger bakom – inte sällan en känd proponent för en viss behandlingsstrategi, med 6 starka förutfattade meningar om sakernas tillstånd. Det kan vara svårt för författaren att låta bli att särskilt lyfta fram artiklar som ger stöd för den egna åsikten. Eftersom den medicinska litteraturen är enorm går det påtagligt ofta att hitta någon eller några artiklar som stöder ens åsikt, hur udda den än må vara. Och om man tillåter sig att ”shoppa runt” och skippa allt som motsäger den egna tesen så går det att bevisa nästan alla åsikter. Det finns också många exempel på översikter som skrivits av författare med nära anknytning till kommersiella intressen (t.ex. läkemedelsbolag) och som haft som uppenbart syfte att presentera den vetenskapliga litteraturen på ett positivt sätt för det egna företaget eller branschorganisationen. Därför bör man undvika att basera EBM-slutsatser på narrativa översikter. Detta står i bjärt kontrast till hur medicinsk kunskap spreds för 20-30 år sedan. Då lyssnade den breda medicinska professionen främst på auktoriteter (läkemedelsindustrin kallar dem för opinion leaders), som spred sina budskap via framträdanden på kongresser och via just narrativa översikter. Eftersom auktoriteterna var auktoriteter just därför att de var extra kunniga inom sina områden så fungerade detta system ganska hyggligt, men det var sårbart. Evidenshierarki Hittar man inga systematiska översikter baserade på RCTs måste man ha en strategi för att få fram ”det näst bästa”. Det är alltså viktigt att värdera identifierade artiklars kvalitet. Kvaliteten av en enskild studie bestäms dels av studiedesignen, dels "utförandet" av studien. Studiedesignernas evidensvärde kan rangordnas (från bästa till sämsta) i: 1. SYSTEMATISK översikt baserad på flera randomiserade kontrollerade trials (RCTs). 2. Randomiserad kontrollerad trial. ------------3. Systematisk översikt baserad på flera observationsstudier (kohort- och fall-kontroll-studier) 4. Observationell prospektiv (framåtblickande) kohortstudie 5. Fall-kontroll-studie 6. Fallserie/patientmaterial utan jämförelsegrupp 7. Fallbeskrivning. Den viktigaste vattendelaren går mellan nivå 2 och 3, nämligen mellan "experimentella" och "observationella" ansatser. Om undersökaren kan allokera deltagare till den aktuella interventionen respektive kontrollbetingelsen och detta sker strikt slumpvis så fördelas potentiellt viktiga olikheter mellan olika patienter (t.ex. utgångsvikt, fysisk aktivitet, komplicerande co-morbiditet, dvs. faktorer som kan påverka utfallet) lika mellan interventionsgrupp och kontrollgrupp. Om grupperna är tillräckligt stora blir fördelningarna av dessa viktiga variabler nästan exakt lika i interventionsgruppen och kontrollgruppen. Det enda som skiljer grupperna åt är just interventionen. Då har man eliminerat tillblandning (confounding) av effekter från dessa störande variabler (confounders eller förväxlingsfaktorer). I observationsstudier kan man inte garantera att grupperna blir lika eftersom det inte är slumpen som avgjort om en patient blivit föremål för den studerade behandlingen. Det finns nästan alltid ett gott skäl till varför en patient får en viss behandling – skäl som ofta är kopplade till sannolikheten för ett gynnsamt (eller ogynnsamt) hälsoutfall. På bilden på nästa sida ser du schematiskt hur två olika potentiella förväxlingsfaktorer kan tänkas ändra ett samband mellan den studerade ”exponeringen” 7 låg-kolhydratdiet (blå ruta) och utfallet HbA1C (gul cirkel). Det är känt att hypertriglyceridemi leder till förhöjda HbA1C-värden. Det är också rimligt att anta att diabetiker med förhöjda triglyceridvärden blir rekommenderade att undvika låg-kolhydratkost (eftersom sådan kost med automatik innebär ett högt fettintag – se ovan). Därför är sannolikt personer med hypertriglyceridemi underrepresenterade bland diabetespatienter som följer en låg-kolhydratdiet, och det uppstår därmed ett omvänt (negativt) samband mellan låg-kolhydratdiet och hypertriglyceridemi. Eftersom det senare tillståndet tenderar att höja HbA1C uppstår ett falskt negativt samband mellan låg-kolhydratkost och HbA1C. En ytterligare möjlig förväxlingsfaktor är hög fysisk aktivitet; man kan gissa att personer som vurmar för LCHF-diet också tränar mer än de som har en ”standarddiet” (låg-fett). Personer med hög fysisk aktivitet är alltså sannolikt överrepresenterade bland diabetespatienter som har en låg-kolhydratdiet, och eftersom den fysiska aktiviteten tenderar att driva ned HbA1C uppstår ett falskt negativt samband mellan låg-kolhydratdiet och HbA1C. För att kunna vara en förväxlingsfaktor måste faktorn själv påverka utfallet (positivt eller negativt) och dessutom vara positivt eller negativt associerad med (men inte nödvändigtvis själv påverka) den studerade exponeringen. Till skillnad från RCTs, där det är slumpen som gör att alla förväxlingsfaktorer – vare sig de är kända eller okända – fördelas lika mellan behandlingsarmarna (och forskarna därför inte behöver bry sig särskilt mycket om dessa faktorer), försöker man i observationsstudier istället MÄTA alla viktiga förväxlingsfaktorer. Då kan man med statistiska metoder justera (kontrollera) för eventuella olikheter mellan grupperna. Om en RCT är slarvigt genomförd (t.ex. randomiseringsutfallet har kunnat förutses och manipuleras, det har varit stort bortfall under uppföljningen, eller mätningen av utfallet kan ha påverkats av att undersökarna kände till vilken behandlingsgrupp de utvärderade patienterna tillhörde) kan studien halka ned i rangordningen och till och med rankas lägre än en rigoröst genomförd observationell kohortstudie med noggrann mätning av och strikt kontroll för alla tänkbara förväxlingsfaktorer. Därför är det viktigt att kritiskt läsa igenom de artiklar som man får fram i sin sökning, och dessutom att försäkra sig om att man inte missat relevanta träffar i kategori 1 och 2. 8 Sökning i PubMed I PubMed finns drygt 23 miljoner referenser. Därför måste man vara mycket mer noggrann i sin sökning än man behöver vara när man söker i Cochrane Library. Ett bra sätt att lite enklare hitta klinisk forskning är att använda Clinical Queries som startpunkt. Det hittar du på första sidan under PubMed Tools. När man gör en sökning i Clinical Queries visas resultatet i tre olika kategorier – (i) kliniska studier; (ii) systematiska översikter (kom ihåg att det PubMed kallar för systematiska översikter också innefattar en del narrativa översikter och kliniska guidelines/behandlingsrekommendationer – du kan inte utgå ifrån att allt som kommer upp är äkta systematiska översikter, hur du känner igen en systematisk översikt har vi redan berört); (iii) studier inriktade på medicinsk genetik. 9 Vi har valt att söka på de för ämnet relevanta termerna ”low carbohydrate diet” och ”diabetes type 2”. Genom att klicka på ”See all” längst ned i varje kategori får man fram hela träfflistan. Där kan man välja ”Show search details” för att se hur PubMed har tolkat sökningen. Under rubriken translations ser man att PubMed har hittat MeSH-termerna ”diet, carbohydraterestricted” och ”diabetes mellitus, type 2” för de ord vi skrivit in i sökrutan och mappar oss till de artiklar som blivit indexerade med dessa. PubMed har också sökt alla begreppen som fritexttermer i alla fält (titel, abstract och adressfält). MeSH-baserad sökning i PubMed Ett sätt att begränsa sin sökning är att använda sig av MeSH Database. Den finns på PubMed-sidan under More Resources. I MeSH-databasen skriver man in ett begrepp i taget och lägger dem i 10 PubMed Search Builder för att sedan utföra sökningen i PubMed. Resultaten kommer att innehålla artiklar som blivit indexerade med de MeSH-termer du sökt på. Att göra en sökning baserad på MeSH-termer är bara ett av de sätt man kan söka på. När man gör MeSH-baserade sökningar söker man enbart på de MeSH-termer en artikel blivit indexerad med (alltså inte i titel och abstract). Detta innebär att man riskerar att missa relevanta artiklar om de är så nya att de ännu inte hunnit indexeras (samma sak gäller för fritextsökning med filter eftersom filtren också bygger på MeSH-termer). Om man vill vara absolut säker på att inte missa någonting måste man göra flera olika sökningar med olika kombinationer av sökbegrepp. T.ex. kan man se att man för MeSH-termen ”Diet, Carbohydrate-Restricted” tidigare använt termen ”Dietary Carbohydrates”. Vill man hitta de artiklar som handlar om lågkolhydratdiet innan år 2006 bör man söka även på ”Dietary Carbohydrates”. Vill man få med det allra senaste kan man inte nöja sig med en MeSH-baserad sökning. Då måste man göra fritextsökningar med ord som man kan anta finns i titlarna och/eller abstracten, utan att använda filter. Sådana sökningar ger ju i allmänhet väldigt mycket träffar, men eftersom problemet bara gäller de allra nyaste artiklarna (som ju alltid kommer först i träfflistan) så behöver man oftast bara gå igenom de första 20-30 träffarna manuellt. Vilka artiklar beaktade du i din slutsats? (tips när du läser: ett kolhydratintag på 40 E% motsvarar 200 gram vid 2000 kcal/dag eller 150 gram 1500 kcal/dag. Ett kolhydratintag på 40 gram/dag motsvarar 8 E% vid 2000 kcal/dag och 11 E% vid 1500 kcal/dag): När man fått ordning på sin sökning och fått fram ett hanterligt antal träffar, som någorlunda verkar täcka PICO-frågan, bör ordningen vara att man FÖRST försöker vaska fram de artiklar som är relevanta. Man brukar börja med att sortera bort sådana artiklar som man redan på titeln kan se är irrelevanta. Sedan ögnar man igenom abstracten för de artiklar som blir kvar. Vad man bör leta efter är artiklar som har stark studiedesign (RCTs och systematiska översikter) och som dessutom har rätt intervention (låg-kolhydratdiet där ≤40 E% tillgodoses med kolhydrater) och rätt utfall (förändring av 11 HbA1C 1 år efter behandlingsstart), alltså rätt I och rätt O i din PICO. Sedan läser man bara de artiklar som uppfyller dessa kriterier (och börjar med metoddelen för att se om studien verkar tillräckligt väldesignad för att läsa fullt ut). Jag kan lova dig att det i de allra flesta fall inte blir mer än vad man kan räkna på sina tio fingrar. Om det inte blir någon kvar (och det är inte ovanligt) får man sänka kravet något och även inkludera observationsstudier, i första hand prospektiva (framåtblickande) kohortstudier. Eftersom en Cochrane-översikt indikerade att det inte fanns några studier av godtagbar kvalitet fram t.o.m. 2006 behöver du i det här fallet kanske inte gå igenom alla relevanta träffar i din träfflista. Om du har lyckats göra en bra sökning i PubMed, antingen genom Clinical Queries eller MeSH Database kommer du att återfinns sex nyckelreferenser (RCTs av lågkolhydratdiet enligt din definition under I i PICO, jämfört med lågfettdiet enligt din definition under C, och med ≥1 års uppföljning) på de första träffsidorna, nämligen: Guldbrand H, Dizdar B, Bunjaku B, Lindström T, Bachrach-Lindström M, Fredrikson M, Ostgren CJ, Nystrom FH. In type 2 diabetes, randomisation to advice to follow a low-carbohydrate diet transiently improves glycaemic control compared with advice to follow a low-fat diet producing a similar weight loss. Diabetologia. 2012 Aug;55(8):2118-27. doi: 10.1007/s00125-012-2567-4. Epub 2012 May 6. Davis NJ, Tomuta N, Schechter C, Isasi CR, Segal-Isaacson CJ, Stein D, Zonszein J, Wylie-Rosett J. Comparative study of the effects of a 1-year dietary intervention of a low-carbohydrate diet versus a low-fat diet on weight and glycemic control in type 2 diabetes. Diabetes Care. 2009 Jul;32(7):114752. Epub 2009 Apr 14. PubMed PMID: 19366978; PubMed Central PMCID: PMC2699720. Iqbal N, Vetter ML, Moore RH, Chittams JL, Dalton-Bakes CV, Dowd M, Williams-Smith C, Cardillo S, Wadden TA. Effects of a low-intensity intervention that prescribed a low-carbohydrate vs. a low-fat diet in obese, diabetic participants. Obesity (Silver Spring). 2010 Sep;18(9):1733-8. Epub 2009 Dec 17. PubMed PMID: 20019677. Elhayany A, Lustman A, Abel R, Attal-Singer J, Vinker S. A low carbohydrate Mediterranean diet improves cardiovascular risk factors and diabetes control among overweight patients with type 2 diabetes mellitus: a 1-year prospective randomized intervention study. Diabetes Obes Metab. 2010 Mar;12(3):204-9. PubMed PMID: 20151996. Larsen RN, Mann NJ, Maclean E, Shaw JE. The effect of high-protein, low-carbohydrate diets in the treatment of type 2 diabetes: a 12 month randomized controlled trial. Diabetologia. 2011 Apr;54(4):731-40. PubMed PMID: 21246185. Wolever TM, Gibbs AL, Mehling C, Chiasson JL, Connelly PW, Josse RG, Leiter LA, Maheux P, RabasaLhoret R, Rodger NW, Ryan EA. The Canadian Trial of Carbohydrates in Diabetes (CCD), a 1-y controlled trial of low-glycemic-index dietary carbohydrate in type 2 diabetes: no effect on glycated hemoglobin but reduction in C-reactive protein. Am J Clin Nutr. 2008 Jan;87(1):114-25. PubMed PMID: 18175744. Kvalitetsgranskning av artiklar 12 En viktig del i EBM-arbetet är att bedöma kvaliteten på de artiklar som kommit upp. Vi har redan konstaterat att studiedesignen är en viktig aspekt på kvalitet – det är i princip RCTs och systematiska översikter (helst baserade på RCTs) som har högst värde. Orsakerna till detta har berörts i tidigare avsnitt. Men därutöver måste man bedöma om utförandet av studien hållit måttet. Studiedesignen är i sig ingen garanti emot systematiska fel. Extern validitet När man bedömer hoten mot en studies ”validitet” (giltighet – dvs. om studien verkligen mäter det den utger sig för att mäta) brukar man skilja mellan ”intern validitet” och ”extern validitet”. Extern validitet handlar om huruvida studiens resultat kan generaliseras till andra än dem som ingick i studien. Vad var det egentligen för patienter som ingick i studien? Hur hade de rekryterats? Vad var inklusions- och exklusionskriterier, och var de rimliga? Är utfallet rimligt och relevant för den kliniska frågeställningen? I kliniska behandlingsstudier ska idealt alla nya patienter, precis i den ordning som de kommer till kliniken, tillfrågas om deltagande. Det kallas konsekutiva patienter. Gå gärna in på CONSORT (http://www.consort-statement.org), som är en webbsajt med ambitionen att öka kvaliteten på rapporteringen från kliniska prövningar. Där finner du bl.a. en checklista över vad som bör vara med i en fullödig rapport. Ett viktigt verktyg för att bedöma kvaliteten på studien är ett flödesdiagram, som beskriver flödet av patienter genom studien. Flödesdiagrammet återfinns på nästa sida. En RCT av god kvalitet bör alltid ha ett sådant flödesdiagram. Man delar upp studien i rekryteringsfas (enrollment), behandlingstilldelning (allocation – idealt genom randomisering), uppföljning (follow-up) och analysfas (analysis). Det är under rekryteringsfasen som den externa validiteten avgörs. I flödesdiagrammet bör det anges hur många patienter som beaktades och som bedömdes avseende valbarhet (eligibility – uppfyllde inklusionskriterierna) i studien, hur många som hoppades över därför att de inte uppfyllde inklusionskriterierna, hur många som avböjde deltagande (om en stor andel av alla valbara patienter avböjer att delta kan den grupp som slutligen deltar vara väldigt speciell), och hur många som uteslöts av andra anledningar. Bland de sistnämnda finns de som uppfyllt något exklusionskriterium. Exklusionskriterier kan t.ex. vara överkänslighet för någon av de behandlingar som ingår i studien, patientkategorier som man av försiktighetsskäl inte vågar exponera för ett nytt och ännu förhållandevis oprövat läkemedel (t.ex. patienter med andra allvarliga sjukdomar, gravida eller ammande kvinnor, eller kvinnor som kan bli gravida under prövningen), samt grupper som man misstänker kommer att ha dålig följsamhet med tilldelade behandlingar och som kanske i värsta fall hoppar av studien under pågående uppföljning (drop-outs). Det kan vara missbrukare och/eller psykiskt instabila personer. Sådana exklusionskriterier är rimliga. Men om det är många som uteslutits av ytterligare andra orsaker eller av oklar anledning kan man möjligen misstänka att undersökarna haft en förutfattad mening om vilken behandling som varit bäst och att behandlingsallokeringen kunnat förutsägas. Om så varit fallet kan det tänkas att undersökarna uteslutit patienter som de tror inte ”passar” för den ena eller andra behandlingen. Då finns det stor risk för att det finns problem med den interna validiteten (se nedan). 13 Intern validitet Intern validitet handlar om i vilken utsträckning de observerade effekterna är verkliga eller beror på (eller påverkats av) olika typer av systematiska fel (bias). Gick randomiseringen schysst till? Kunde randomiseringsutfallet förutses eller manipuleras? Idag krävs att randomiseringsförfarandet beskrivits i detalj i den publicerade artikeln. Exempel på acceptabla randomiseringsförfaranden är dragning av i förväg iordningsställda lappar med anvisning om vilken läkemedelsföpackning som patienten ska få (under förutsättning att lapparna ligger i slutna kuvert och det inte går att lista ut innehållet genom att hålla kuverten mot ljuset), och i förväg iordningsställda datorgenererade randomiseringslistor (under förutsättning att listorna hålls enbart av ett oberoende allokeringssekretariat dit undersökarna måste ringa för att få anvisning om vilken förpackning som patienten ska tilldelas). Tärningskast eller färdiga randomiseringslistor som gör det möjligt för undersökarna att i förväg se vilken behandling som är ”på tur” är inte acceptabla metoder därför att 14 de kan manipuleras och/eller förutsägas. Resulterade randomiseringen verkligen i fullt jämförbara grupper eller fanns det viktiga obalanser vad gäller faktorer på kan tänkas påverka utfallet? Behandlingsarmarnas likvärdighet brukar redovisas i en RCTs första tabell. Där kan man se om faktorer som kan tänkas påverka utfallet är fördelade mellan behandlingsarmarna. Fick deltagarna verkligen den föreskrivna behandlingen? Hur var följsamheten med behandlingen (compliance [”discontinued intervention”, se ovanstående flödesdiagram])? Uteslöts deltagare från studien efter randomisering (genom aktivt beslut från forskarna – withdrawals [”did not receive allocated intervention”]) eller självvalt (dropouts [”lost to follow-up”])? Om det var (1) många som uteslöts på grund av withdrawal, loss-to-follow-up eller non-compliance, om de som uteslutits hade (2) en annan sannolikhet för att uppnå utfallet än de som inte uteslöts, och (3) andelen som uteslöts var olika i behandlingsgrupp och kontrollgrupp finns det stor risk för att selektionsbias introduceras i studien. Selektionsbias yttrar sig som positiva eller negativa samband mellan den studerade behandlingen och förväxlingsfaktorer som påverkar sannolikheten för utfallet. Då kan man plötsligt ha fått problem med confounding, trots att det är en randomiserad studie. Tänk dig till exempel att du genomför en RCT av en aktiv behandling mot lunginflammation (med placebo som jämförelse), men att den aktiva behandlingen har en biverkan som främst gör sig påmind hos rökare, så att många rökare i behandlingsgruppen hoppar av studien. Tänk dig också att rökning inverkar negativt på läkningen av lunginflammationer. Om oproportionerligt många rökare hoppar av just från den aktiva behandlingsarmen, och man bara analyserar dem som genomfört hela studien enligt protokollet kommer den aktiva behandlingsarmen då att innehålla en mindre andel rökare än kontrollarmen. Det kan leda till att resultaten vad gäller andelen som tillfrisknat blir bättre i den aktiva behandlingsarmen, inte bara på grund av läkemedelseffekten, utan på grund av selektionsbias orsakad av bortfallet. Det har alltså uppstått ett omvänt samband mellan den aktiva behandlingen och andelen rökare, och man har plötsligt fått confounding från rökning (effekten av den aktiva behandlingen blandas med effekten av att ha färre rökare i behandlingsarmen). Som en tumregel kan man säga att om mindre än 10% av deltagarna uteslutits/fallit bort efter randomiseringen är det osannolikt att eventuellt resulterande selektionsbias har haft avgörande betydelse för resultatet, medan om mer än 30% fallit bort är risken överhängande (särskilt om andelen som fallit bort i behandlingsgruppen skiljer sig markant från motsvarande andel i kontrollgruppen). Kan man misstänka att utfallet i studien bedömdes olika bland patienter som randomiserats till den studerade interventionen jämfört med dem som randomiserats till kontrollgruppen? Om de som bedömde behandlingsutfallet känt till vilken behandlingsgrupp deltagarna ingick i finns risk för informationsbias om utfallet. Om man som undersökare tror starkt på den nya behandlingen är det väldigt lätt att man bedömer utfallet bland dem som fått den nya behandlingen mer ”välvilligt” än bland dem som fått jämförelsebehandlingen. Denna risk kan minskas avsevärt om utvärderarna är 15 ovetande om (”blindade” för) vilken behandlingsgrupp patienterna ingått i. Detta kallas för en enkelblind studie. För att ytterligare minska risken att utvärderaren av utfallet ska styras av vetskapen om behandlingstilldelningen är det vanligt att såväl patienterna själva som utvärderarna av utfallet (undersökarna) är blindade för behandlingsallokeringen. Då finns det ingen risk för att patienterna försäger sig. Detta kallas för en dubbel-blind studie, vilket är något av standard när det gäller RCTs av läkemedel. Är man riktigt rigorös behålls blindningen under hela analysfasen (de som analyserar känner bara till att vissa patienter fick behandling A och andra fick behandling B, men inte vilken av behandlingarna som var den studerade nya behandlingen och vilken som var kontrollbehandlingen). Detta kallas för en trippel-blind studie, och koden bryts först när alla analyser är slutförda. Systematiska fel kan även uppstå under analysfasen. Om många deltagare utesluts ur analysen (t.ex. därför att insamlade data varit ofullständiga) kan selektionsbias uppstå. Därför bör antalet som uteslutits i analysen redovisas i flödesdiagrammet. Bias kan även uppstå om studien har många alternativa utfallsmått och undersökarna inte i förväg definierat vad som är det primära utfallsmåttet. Den statistiska analysen går ut på att bedöma hur stor sannolikheten är att – om nollhypotesen är sann och det faktiskt inte finns någon effekt – av ren slump ändå få ett falskt positivt resultat som är lika extremt som, eller mer extremt än, det som erhållits. Det är det som P-värdet anger. Man vill ju ge slumpen så liten betydelse som möjligt, så P-värdet bör vara lågt. Någonstans måste man sätta en gräns där man anser att slumpen är utesluten som förklaring till det erhållna resultatet. Av konvention brukar man sätta den gränsen till 0,05 eller 5%. Det betyder att om man skulle upprepa exakt samma studie 100 gånger (och det faktiskt inte finns någon effekt) kommer man att få ett falskt positivt resultat (”statistiskt signifikant” – p<0,05) bara på grund av slumpen vid endast fem av dessa upprepningar. Alla som är bekanta med sannolikhetslära vet dock att ju fler försök man gör, desto större blir chansen att få ett /falskt positivt/ statistiskt signifikant resultat; det är som att kasta en tärning – om du bara får hålla på att kasta din tärning tillräckligt många gånger så får du till slut upp en sexa. På samma sätt är det om man har en lång rad med olika varianter av utfallsmåttet och genomför multipla signifikans-test: till slut får man ett signifikant resultat. Därför är det viktigt att man bestämt sig för ETT utfallsmått, som utgör det primära utfallsmåttet. Det är mot detta utfall – och BARA mot detta utfall – som signifikansprövningen ska göras. Sekundära utfallsmått (om man tydligt markerar att de är just sekundära) kan vara värdefulla för att explorera resultaten så att man kan formulera nya hypoteser, som sedan får prövas i en NY studie. Men att låtsas som de var primära utfallsmått är på gränsen till forskningsfusk. För att få RCTs publicerade i välrenommerade tidskrifter krävs nuförtiden att undersökarna redan före studiens igångsättande publicerat studieprotokollet eller en synopsis på publika webb-sidor (t.ex.ClinicalTrials.gov (http://clinicaltrials.gov/) eller http://www.controlled-trials.com/). Där måste man också ange vad som är primär utfallsvariabel. En kontroll på dessa webbsidor anbefalls varmt som en rutinåtgärd. ”Intention-to-treat” (ITT)-analys och ”per protocol-analys” Som nämnts inledningsvis är randomisering det enda sättet som finns för att eliminera all tänkbar confounding, även sådan confounding som man inte känner till eller ens misstänker. Det beror på att det inte kan uppstå några samband mellan behandlingen och förväxlingsfaktorer som påverkar utfallsmåttet. Men denna fullständiga elimination av confounding kan bara ske om randomiseringen gått rätt till, och om randomiseringsresultatet lämnats intakt. Som vi redan konstaterat kan det uppstå selektionsbias (som yttrar sig som positiva eller negativa samband mellan behandlingen och förväxlingsfaktorer som påverkar sannolikheten för utfallet) om man efter randomiseringen börjar 16 exkludera deltagare, eller om deltagare själva lämnar studien. Då kan man plötsligt ha fått problem med confounding, trots att det är en randomiserad studie. Därför är man överens om att huvud-analysen ska inkludera ALLA som randomiserats, även dem som senare exkluderats eller fallit bort. En sådan analys kallas ”Intention-to-treat”-analys eller ITT-analys. Det är BARA om randomiseringsutfallet lämnats intakt (och randomiseringen gått rätt till) som man kan vara säker på att det inte finns någon confounding. Det anses vara en svår brist om inte ITT-data presenteras som huvudresultat. Vid en ITT-analys måste man emellertid ofta göra antaganden om hur det gått för dem som fallit bort. Det kan göras på olika sätt. Om deltagarna haft upprepade kontakter med undersökarna under uppföljningen är ett sätt att anta att det slutliga utfallet blev detsamma som när man sist såg deltagaren i studien. Det kallas för ”last observation carried forward” (LOCF). Ett annat och mer konservativt sätt är att anta att alla som inte fullföljt studien INTE blivit förbättrade (”worst-case scenario”). Idag använder man företrädesvis någon av de många statistiska imputeringsmetoder, där man använder data från andra fullföljande deltagare som så mycket som möjligt ”liknar” den deltagare som fallit bort. Bäst är förstås att minimera bortfallet. ”Motsatsen” till ITT-analys är ”per protocol”-analys. Då analyseras bara de deltagare som faktiskt genomgått hela interventionen och uppföljningen. Sådana analyser är värdefulla som supplementära analyser eftersom man då inte behöver göra antaganden om utfallet, men man måste vara medveten om att confounding inte längre är utesluten. Bedömning av statistiskt underlag/precision För att välja ett lagom antal deltagare i studien (”urvalsstorleksberäkning”) måste undersökarna först bestämma sig för vilken risk man är villig att ta för att felaktigt ”acceptera” ett falskt positivt resultat (dvs. risken för att felaktigt förkasta 0-hypotesen och få ett statistiskt signifikant resultat som uppkommit bara på grund av slumpen när behandlingen i själva verket är overksam). Den risken brukar vanligen sättas till 5% och brukar kallas signifikansnivån eller alfa. När du läser i artiklar att undersökarna anser att resultatet är statistiskt signifikant (och förkastar 0-hypotesen) därför att p<0.05 så har de applicerat signifikansnivån 5%. På föregående sida kunde du läsa om implikationerna av signifikansnivån och p-värdet. Sedan måste undersökarna bestämma sig för den minsta effekt som de vill kunna säkerställa (den minsta effekt som är så viktig att den inte får missas). Om effekten är pytteliten är den sannolikt inte kliniskt relevant, men när man sedan rör sig uppåt på skalan kommer man till en punkt där effekten blir kliniskt betydelsefull. När man väl har bestämt sig för denna punkt (eller effektstorlek) måste man bestämma sig vilken risk man är beredd att ta för att felaktigt ”acceptera” ett falskt negativt resultat (dvs. risken för att inte kunna förkasta 0hypotesen och därmed få ett statistiskt icke-signifikant resultat när behandlingen i själva verket är verksam – alltså risken att ”missa” effekten). Den risken (som brukar kallas beta2) sätts vanligtvis till 20% (eller mer ovanligt till 10%). Om en behandling faktiskt har en kliniskt relevant effekt (0hypotesen är i verkligheten falsk) och du gör om samma studie med beta=20% 100 gånger kommer studien att ge ett falskt icke-signifikant resultat 20 gånger. Anledningen till att man inte väljer beta=5%, precis som alfa, är att det behövs en kolossalt stor studie för att driva ned beta till så låga nivåer – försåvitt man inte har en jättestor effekt av behandlingen, eller har satt alfa till betydligt högre än 5%. Storleken på beta är nämligen beroende av 1) urvalsstorlek – ju fler deltagare ju lägre 2 Man brukar också tala om studiens ”power” att detektera en effekt. Power = 1 beta. Om beta är 20% (vilket är detsamma som 0,2) blir power 0,8 eller 80%. Om beta är 10% blir power 90%. 17 beta; 2) effektstorlek – ju större effekt ju lägre beta; och 3) signifikansnivå – ju högre alfa, ju lägre beta. Baserat på dessa beslut kan statistikern räkna ut hur många deltagare som krävs. Som läsare av studien måste du ta ställning till de underliggande besluten: Var övervägandena och beräkningarna till grund för val av urvalsstorlek tydligt beskrivna? Var den minsta kliniskt relevanta effekten förhandsdefinierad och var nivån rimlig? Var valet av alfa rimligt? Var valet av beta rimligt? Om studien kommit till ett icke-signifikant resultat kan man inte utan vidare säga att det inte finns någon effekt. Innan undersökarna kan dra en sådan slutsats måste de ange hur stor risken är för att det är ett falskt negativt resultat och att de i själva verket missat en kliniskt viktig effekt. Om studien är gravt underdimensionerad kan den risken vara väldigt stor. Om det inte finns någon urvalsstorleksberäkning med en redan specificerad beta/power, eller om undersökarna inte lyckades nå upp till det antal deltagare som urvalsstorleksberäkningen föreskrev, måste de göra en s.k. post-hoc powerberäkning. Observera att en sådan beräkning inte behövs om resultatet var statistiskt signifikant. Då kan man ju inte ha missat effekten. Granskningsmallar För att underlätta bedömningen av en studies kvalitet finns olika typer av granskningsmallar. De hjälper dig att ställa de relevanta frågorna och att väga samman de olika kvalitetsaspekterna i ett enda omdöme. På kurswebben finns en granskningsmall för behandlingsstudier (RCTs) som ursprungligen utvecklats för SBU. Fördelen med den granskningsmallen är att den ”poängsätter” de olika kvalitetsaspekterna så att de svåraste bristerna får en större vikt än de mindre betydelsefulla. Mallarna finns i två versioner, en annoterad med diverse förklaringar (Kvalitetsgranskning av vetenskapliga originalartiklar om behandling_v2.docx), och en kortare ”arbetsversion” utan förklaringar (Kvalitetsgranskning av vetenskapliga originalartiklar om behandling_kort.docx). Den kortare versionen finns som bilaga sist i detta dokument. I vår övning använder du denna granskningsmall för att bedöma kvaliteten på de RCTs som kommit upp i sökningen. Generellt är de aktuella studierna svaga. Det är oklart vilken typ av patienter som finns representerade, och därmed blir den externa validiteten / generaliserbarheten oklar. Randomiseringsprocessen är oftast dåligt beskriven, studierna är oblindade, compliance förefaller överlag vara dålig, och bortfallet är stort (det är inga lätta studier att genomföra). Själva studiedesignen är annars ganska okomplicerad och rapporterna ganska standardiserade och lättlästa. Här följer en mer specificerad kritik, baserad på granskningsmallen: Wolever et al: Tveksam extern validitet (poängsumma 9): Rekryteringsvägar ej beskrivna; hela flödet från inbjudan inte beskriven enligt CONSORT; icke-deltagande redovisas inte. God intern validitet (poängsumma 26): Ingen blindning av de som utvärderade effekten; bortfall på 19.8%. Adekvat statistiskt underlag (poängsumma 6 av 7 möjliga). Elhayany et al: Måttlig extern validitet (poängsumma 13): Stort ickedeltagande, oklara orsaker till exklusioner. Undermålig intern validitet (poängsumma 4): Randomiseringen ej beskriven, men i en annan publikation gällande samma studie (Fraser A, Abel R, Lawlor DA, Fraser D, Elhayany A. A modified Mediterranean diet is associated with the greatest reduction in alanine aminotransferase levels in obese type 2 diabetes patients: results of a quasi-randomized controlled trial. Diabetologia 18 2008;51:1616-22) framgår att det inte var någon riktig randomisering utan kvasi-randomisering (alternerande sekvens, visserligen hanterad av en utomstående person); ingen blindning; ingen tillfredsställande analys av följsamhet (bara E% kolhydrat redovisat); mycket stort bortfall (31%); ingen primär utfallsvariabel; per protocol-analys. Tveksamt statistiskt underlag (poängsumma 3): Minsta kliniskt relevanta effekt ej definierad; ingen motivering till samplestorlek; ingen powerberäkning. Iqbal et al: Hög extern validitet (poängsumma 15): Rekryteringsvägar oklart beskrivna, dock. Undermålig intern validitet (poängsumma 12): Randomiseringen bara delvis beskriven; väsentliga obalanser i baslinjedata (ehuru justerade med multivariat modellering); ingen blindning; mycket dålig compliance; bortfall 53% (sic!), olika i behandlingsarmarna (kan sägas utgöra tillräcklig orsak för att förkasta denna studie); per protocol-analys. Tveksamt statistiskt underlag (poängsumma 4 av 7 möjliga). Davis et al: Måttlig extern validitet (poängsumma 12): Artificiella rekryteringsvägar (handplockade prevalenta fall? Annonsering); stort icke-deltagande. Något tveksam intern validitet (poängsumma 21): Bara delvis beskriven randomiseringsprocedur, går ej att utesluta att den kunnat manipuleras eller förutsägas; måttlig obalans i behandlingsgrupperna, justerat med multivariat modellering; ingen blindning; 19% bortfall. Adekvat statistiskt underlag (poängsumma 6 av 7 möjliga). Larsen et al: Måttlig extern validitet (poängsumma 13): Artificiella rekryteringsvägar (handplockade prevalenta fall? Annonsering); stort icke-deltagande. Något tveksam intern validitet (poängsumma 21): Dålig följsamhet med interventionerna; ingen riktig ITT-analys. Adekvat statistiskt underlag (poängsumma 6 av 7 möjliga). Guldbrand et al: Måttlig extern validitet (poängsumma 10): Rekryteringsvägar oklart beskrivna, möjligen handplockade patienter; bristande definition av utfallet. Något tveksam intern validitet (poängsumma 20): Bristfälligt beskriven och möjligen inadekvat randomiseringsmetod; obalanser i behandlingsgrupperna; ingen blindning; inget prioritering bland 17 olika utfall. Otillräckligt statistiskt underlag: Mista relevanta kliniska effekt ej definierad, ingen samplestorleksberäkning, ingen post hoc powerberäkning. Ett genomgående mönster är att man efter 3 månader ser en mer tydlig effekt av låg-kolhydratkost än av låg-fettkost vad avser viktnedgång och HbA1C, men att denna skillnad inte består, och att skillnaderna är i stort sett obefintliga vid 12 månader. Vilken är din slutsats?: De fyra starkaste studierna (Wolever, Davis, Larsen och Guldbrand) samt den undermåliga Iqbal visar samstämmiga resultat – ingen skillnad i effekt på vikt eller HBA1C efter ett år, men Davis (enbart) visar förhöjt HDL kolesterol i låg-kolhydratgruppen. Elhayany visar bättre viktminskning, bättre HbA1C, bättre HDL kolesterol, bättre triglycerider i låg-kolhydratdiet-armen. Ska det sammanvägda evidensläget beskrivas som otillräckligt pga motstridiga resultat, eller ska man bortse från Elhayany’s studie pga den dåliga interna validiteten, och säga att det finns måttligt starkt evidens (4 RCT:s, alla med kvalitetsbrister) för att det efter 1 års dietbehandling inte föreligger någon skillnad mellan lågkolhydratdiet och låg-fettdiet vad avser viktnedgång och glycemisk kontroll? Jag lutar åt det 19 sistnämnda. När det gäller lipidförändringar är resultaten motstridiga och det måste sägas föreligga otillräcklig evidens för några skillnader därvidlag mellan de två jämförda dieterna. APPENDIX: Granskningsmall Kvalitetsbedömning av randomiserade kontrollerade prövningar (RCTs) 1. Bedömning av extern validitet Personer som uppfyller inklusionskriterierna benämns här "valbara". a) Är inklusionskriterierna tydliga och acceptabla (kan man utläsa vilket medicinskt tillstånd deltagarna egentligen har, och är definitionen förenlig med gällande kunskapsläge) ? Ja ( = 2) Nej (= 0) b) Är valbara personer representativa för den målgrupp till vilken författarna vill generalisera sina resultat? Ja, troligen (rekryteringsvägarna är väl beskrivna och förenliga med den kliniska verkligheten – vanligen uppnås detta genom att konsekutiva* nya patienter tillfrågas. Vid interventionsstudier bland icke-patienter – urvalet är hyggligt representativt för målgruppen) (= 2) Går inte att säga (rekryteringsvägarna oklart beskrivna) (= 0) Troligen inte (rekryteringsvägarna är beskrivna, men situationen är artificiell – t.ex. ”handplockade” redan kända patienter [prevalenta fall], eller patienter rekryterade via annonser) (= 0) *) Med konsekutiva menas att alla nya valbara patienter som kommer till kliniken/mottagningen tillfrågas och tas in i studien i den ordning som de kommit. c) Redovisas hela flödet från inbjudan (enrollment) till randomisering, med alla exklusioner och orsaker därtill, enligt CONSORT (se www.consort-statement.org)? Ja (= 2) Nej, men motsvarande information finns i texten (= 2) Nej, och motsvarande information ges ej (= 0) d) Är icke-deltagande av så stor magnitud och sådan karaktär att det finns anledning att tro att generaliserbarheten påverkas? Nej (= 2) Går inte att säga därför att icke-deltagande inte redovisas (= 0) Ja (= 0) e) Är exklusionskriterierna tydliga och acceptabla? Ja (= 2) Nej (= 0) 20 f) Har antal och orsaker angivits för exkluderade personer (alltså FÖRE randomisering och återigen bäst beskrivet i ett flödesdiagram)? Ja (= 2) Nej (= 0) g) Finns en acceptabel definition av utfallsmåttet? Ja (= 3) Nej (= 0) h) Är utfallsmåttet kliniskt relevant? Ja (= 2) Relevansen diskutabel (= 0) Relevans obefintlig undersökningen bedöms sakna informationsvärde. Om det finns åtminstone någon relevans i utfallsmåttet och den sammanlagda poängen är 14 eller högre är den externa validiteten hög, om poängen är 10-13 är den externa validiteten måttlig, är poängen 7-9 är den externa validiteten tveksam, och om poängen är under 7 kan den externa validiteten inte bedömas. 2. Bedömning av intern validitet 2.1 Tilldelning av intervention eller behandling a) Är randomiseringsproceduren beskriven? Ja, i detalj (= 3) Ja, delvis (= 1) Nej (= 0) Om du inte svarat ”Nej” besvara även fråga b och c, hoppa annars till fråga d. b) Kan det ha varit möjligt att manipulera randomiseringen? Nej (t ex ogenomskinliga kuvert, datorgenererad sekvens som finns hos någon annan än prövningspersonalen) (= 1) Ja (t ex om metoden är slantsingling eller tärningskast, eller öppen randomiseringslista som gör det möjligt att veta vilken betingelse som närmast i tur) (= 0) c) Medförde randomiseringen en oförutsägbar helt slumpmässig allokering (dvs fördelning av deltagarna) mellan prövningsgrupperna? Ja (= 1) Nej (= 0) d) Exkluderades patienter efter randomisering men före intervention? Nej, inte alls (= 3) Ja, men så få att det rimligen inte kunnat påverka resultaten (= 1) Ja, så många att resultaten potentiellt skulle kunna påverkas (= 0) 21 2.2 Gruppernas jämförbarhet a) Finns en redogörelse för jämförbarheten mellan grupperna med avseende på kända faktorer som kan tänkas inverka på resultatet (vanligtvis utgör detta Tabell 1 i en RCT)? Ja (= 1) Nej (= 0) b) Förelåg några väsentliga brister i jämförbarheten, dvs. gruppskillnader (obalanser) i baslinjedata? Nej (= 1) Ja (= 0) 2.3 Blindning (maskering) a) Gjordes försök till blindning, dvs. att maskera i vilken grupp försöksdeltagarna hamnade? Nej (= öppen prövning) (= 0) Enkelblind – de observatörer som utvärderade utfallet var blindade (= 2) Dubbelblind – både deltagarna och observatörerna var blindade (= 3) Trippelblind (dubbelblind + all resultatbearbetning utfördes innan prövningskoden bröts) (=4) 2.4 Följsamhet med given behandling (compliance) a) Finns någon redogörelse för följsamhetens omfattning? Ja (= 1) Nej (= 0) Gå vidare till fråga 2.5 b) Var andelen med fullständig behandling acceptabelt* stor? Ja (= 2) Nej (= 0) *Acceptabelt kan t ex vara att >80% av deltagarna fick >80% av den föreskrivna totaldosen. 2.5 Bortfall (antalet deltagare som inte har följts upp enligt studieprotokollet) a) Finns en redogörelse för bortfallet samt uppgifter om orsakerna till detta? Ja (= 3) Nej (= 0) Gå vidare till fråga 2.6 b) Hur stor är risken att bortfallet kan ha snedvridit resultaten? Liten (exempelvis bortfall <10 %) (= 3) Medel (exempelvis bortfall 10-19 %) (= 2) Stor (exempelvis bortfall 20-29 %) (= 0) Mycket stor (exempelvis bortfall ≥30 %) undersökningen bedöms ofta sakna informationsvärde vilket kan innebära exklusion från evidensbedömning 2.6 Bedömning av biverkningar a) Vidtogs acceptabla åtgärder för att samla in och registrera information om biverkningar? 22 Ja, systematisk insamling och rapportering (= 2) Ja, begränsad beskrivning av inträffade biverkningar (= 1) Nej (= 0) 2.7 Analys av resultat a) Var det huvudsakliga (primära) utfallsmåttet (resultatvariabel och mätmetod) definierat i artikeln? Ja (= 1) Nej (= 0) b) Var konklusionen angående studiens resultat baserad på detta utfallsmått (enligt a ovan)? Ja (= 1) Nej (= 0) c) Fanns en angiven förhandshypotes? (Varför skulle just denna behandling vara effektiv?) Ja (= 1) Nej (= 0) d) Var sekundära utfallsmått definierade i artikeln? Ja (= 1) Nej (= 0) e) Inkluderades data från alla randomiserade deltagare i analysen, och behölls de då i den behandlingsgrupp som de från början allokerats till (intention-to-treat-analys, ITT)? Ja (= 4) Nej, man redovisar bara en ”per protocol”-analys eller motsvarande (= 0) Max-poängen för intern validitet är 33. Om den sammanlagda poängen för intern validitet är över 28 måste studien anses ha utmärkt intern validitet. Om poängen är 25-28 kan den interna validiteten sägas vara god. Om poängen är 20-24 kan den interna validiteten sägas vara något tveksam. Om poängen är 15-19 är den interna validiteten bristfällig. Om poängen är under 15 är den interna validiteten sannolikt undermålig och man bör överväga om man överhuvudtaget ska beakta dess resultat. 3. Bedömning av statistiskt underlag / precision 3.1 Minsta kliniskt relevanta effekt a) Var den minsta kliniskt relevanta effekten förhandsdefinierad? Ja (= 1) Nej (= 0) b) Är den valda minsta kliniska relevanta effekten av rimlig storlek? Ja (= 1) Nej (eller ej angiven) (= 0) 23 3.2 Undersökningens statistiska styrka a) Är överväganden och beräkningar till grund för val av urvalsstorlek (”sample size”) tydligt beskrivna? Ja (= 2) Nej (= 0) b) Hur stor var studiens ”power” (styrka) att påvisa den minsta kliniskt relevanta effekten? Power-beräkning är irrelevant eftersom det fanns en statistiskt signifikant effekt (=3) Power >90% (= 3) Power 80-89% (= 2) Power 70-79% (= 1) Power <70% (= 0) Power ej angiven trots icke-signifikant resultat (= 0) Totalpoäng >4: Adekvat statistiskt underlag; 2-4 tveksamt statistiskt underlag; 0-1 otillräckligt statistiskt underlag 24