Kommentar till inlämningsuppgiften vid EBM-dagen

Kommentar till inlämningsuppgiften vid EBM-dagen, termin 5
Uppgiften
Du är ST-läkare på medicinkliniken i Eskilstälje och har fått i uppgift att uppdatera klinikens behandlingsrutiner för diabetes mellitus typ-2. Du har kommit till det icke-farmakologiska omhändertagandet – närmare bestämt kostråd – och kontaktar därför klinikens dietist. Tillsammans konstaterar ni
att kostråden hittills i stort sett följer rekommendationerna från European Associationen for the
Study of Diabetes (EASD), nämligen lågt fettintag (mindre än 35% av totala energiintaget [35 E%];
mindre än 30 E% om patienten är överviktig och behöver gå ned i vikt), högt kolhydratintag (45-60
E%, gärna mycket fibrer och lågt glykemiskt index - GI) och ett proteinintag på 10-20 E%. Ni
konstaterar också att en stor del av era patienter med typ-2 diabetes är överviktiga eller obesa.
Dietisten säger att flera gamla rapporter talar för att ett högt kolhydratintag kan förvärra
diabetespatienters hyperglykemi och minska halterna av det ”goda” HDL-kolesterolet. Hon säger
också att dieter med extremt lågt kolhydratintag, som Atkinsdieten med ett initialt kolhydratintag på
4-5 E% och ett fettintag på cirka 70 E%, har visat goda resultat vad gäller viktnedgång och blodfetter
hos överviktiga friska personer. Därtill visar hon två intressanta artiklar baserade på randomiserade
studier från 2005 och 2006, som båda tyder på att en låg-kolhydratdiet åtminstone på kort sikt kan
ge bättre viktnedgång, bättre glycemisk kontroll och en mer gynnsam lipoproteinprofil än en
traditionell låg-fettdiet1. Så varför inte överväga att gå över till att rekommendera en låg-kolhydratdiet till typ-2 diabetes-patienterna, åtminstone de med övervikt/obesitas? En strikt Atkins-diet
kanske är att ta i. Men ett kolhydratintag på under 40 E% kanske skulle räcka. Med ett proteinintag
på 20 E% innebär den dieten ett fettintag på 40 E%. Du lovar att undersöka det aktuella
kunskapsläget .
Du börjar med att leta efter en systematisk översikt, och eftersom du vet att översikterna på
Cochrane Library i princip alltid är systematiska och för det mesta välgjorda så börjar du med att söka
där. Du skriver ”type-2 diabetes diet” i sökrutan och får upp 38 Cochrane Reviews, och redan som
nummer 2 finns den mest relevanta: Nield L, More H, Hooper L, et al. Dietary advice for treatment of
type 2 diabetes mellitus in adults. I träfflistan står årtalet 2009, vilket ju låter ganska aktuellt. När du
laddar ner pdf:en kan du läsa följande under rubriken ”Studies that assessed low-fat diets versus
moderate fat or low-carbohydrate diets”:
” ..five out of ….six trials were assessed to be at a high risk of bias…” och “…no firm conclusions could be
drawn…”
Och under Authors’ conclusions:
“There are no high quality data on the efficacy of the dietary treatment of type 2 diabetes…” och “There is an
urgent need for well-designed studies which examine a range of interventions, at various points during followup, although there is a promising study currently underway.“
När du tittar på första textsidan (med abstractet) ser du att översikten ska refereras som Cochrane
Database Syst Rev. 2007;(3):CD004097 (alltså inte 2009), och när du tittar ännu närmare ser du
följande deklaration:
Review content assessed as up-to-date: 30 October 2006.
1
Översikten är alltså åtta år gammal, och ingen av de studier som dietisten visade fanns citerad.
Redan när översikten skrevs antyddes att nya data var på väg. Därför bestämmer du dig att gå vidare
med en sökning på PubMed.
För att underlätta läsningen av artiklar inom detta område, där intaget av kolhydrater, protein och fett omväxlande anges som energiprocent (E%) och omväxlande som gram per dag, påminns du om att energiinnehållet i kolhydrater och protein är cirka 4 kcal/gram, medan det i fett är cirka 9 kcal/gram. Tabellen
nedan visar exempel på transformationen mellan E% och intag per dag:
Vid 2000 kcal/dag
Vid 1500 kcal/dag
4 E%
10 E%
30 E%
40 E%
4 E%
10 E%
30 E%
40 E%
Kolhydrat
20 g/dag
50 g/dag
150 g/dag
200 g/dag
15 g/dag
38 g/dag
113 g/dag
150 g/dag
Fett
9 g/dag
22 g/dag
67 g/dag
89 g/dag
7 g/dag
17 g/dag
50 g/dag
67 g/dag
Protein
20 g/dag
50 g/dag
150 g/dag
200 g/dag
15 g/dag
38 g/dag
113 g/dag
150 g/dag
________________
1
) Pohl M, Mayr P, Metl-Roetzer, et al. Glycaemic control in type II diabetic tube-fed patients with a new
enteral formula low in carbohydrates and high in monounsaturated fatty acids: a randomized controlled
trial. Eur J Clin Nutr 2005;59:1221-32.: Bland 78 typ-2 diabetes-patienter med behov av sondmatning hade de
39 som under 12 veckor matades med en näringslösning med 37 E% kolhydrater och 45 E% fett ett signifikant
lägre insulinbehov, blodglykos och HbA1C jämfört med de 39 som fick en näringslösning med samma
energiinnehåll men bestående av 52 E% kolhydrater och 30 E% fett.
Daly ME, Paisey R, Paisey R, et al. Short-term effects of severe dietary carbohydrate-restriction advice in Type
2 diabetes – a randomized controlled trial. Diabet Med 2006;23:15-20.: En RCT, där 102 obesa patienter med
dåligt kontrollerad typ-2 diabetes randomiserades till en låg-kolhydratdiet med max 70 gram kolhydrater per
dag (cirka 21 E% vid 1300 kcal) eller en lågfettdiet med samma energiinnehåll. Studien varade i 3 månader. I
praktiken nådde de som randomiserats till låg-kolhydratdiet i medeltal 34 E% kolhydrat och 40 E% fett, med de
som allokerats till lågfettdiet i medeltal intog 45 E% kolhydrat och 33 E% fett. Viktnedgången i låg-kolhydratgruppen var signifikant större än i låg-fettgruppen, och HDL ökade signifikant mer.
2
Svarsblankett
Du måste börja med att skriva en PICO-fråga. Formulera den och motivera ditt val av
avgränsningar:
I EBM-sammanhang bör frågan vara så specifik som möjligt. Meningen är att svaret direkt ska kunna
appliceras på en väldefinierad patientgrupp. Man vill inte ha ett svävande svar om hur det ligger till
för olika undergrupper av sjukdomen i fråga, eller hur olika varianter av den aktuella behandlingen
fungerar. I de flesta fall finns det många olika tänkbara utfall – i det aktuella fallet kan man tänka sig
allt från det ”hårdaste” utfallet överlevnad, via incidens av hjärtinfarkt eller diabeteskomplikationer
såsom retinopati, till intermediära surrogatutfall som viktnedgång, glykemisk kontroll, och
blodfettmönster. Helst vill man ha en ja/nej-fråga. En sådan fråga bör ställas enligt den engelska
PICO-modellen (Population/patientkategori – Intervention [alltså den behandling eller exponering
som frågan gäller] – Control [vad som är jämförelsebetingelse – placebo? Annan specificerad
behandling?] – Outcome [utfall]). En bra PICO-fråga kan formuleras som följer:
Population/patientkategori
Intervention
Control
Outcome
Patienter med typ-2 diabetes
mellitus
Låg-kolhydratdiet
Låg-fettdiet
Glykemisk kontroll
Eller mer fritt:
Bland patienter med diabetes mellitus typ 2, leder låg-kolhydratdiet till en bättre glykemisk kontroll
än vad låg-fettdiet gör?
Men det finns många olika kategorier av patienter med diabetes mellitus typ 2, och det är inte väldefinierat vad som utgör en låg-kolhydratdiet eller en låg-fettdiet. Så man måste först fatta ett antal
beslut:
P: Patient/population: Definition av diabetes mellitus typ 2 är knappast kontroversiellt, men ska det
vara diabetes med samtidig övervikt; eller läkemedelsbehandlad alternativt kostbehandlad diabetes?
Skillnader mellan kostbehandlad och läkemedelsbehandlad diabetes kan påverka de studerade
sambanden. Vid svår läkemedelsbehandlad diabetes måste man kanske justera doserna för att inte
få hypoglykemi vid extrem låg-kolhydratkost, och det kan påverka utfallsmåtten. Likaså finns det
perorala antidiabetesmedel som har viktuppgång som biverkan (ett problem om vikt är ett
utfallsmått). I vår övning accepterar vi såväl exklusivt kostbehandlad som läkemedelsbehandlad
(inklusive insulinbehandlad) diabetes. Men i ett annat sammanhang kanske du hade valt att ha en
annan definition.
I: Intervention: Vad ska betecknas som låg-kolhydratkost? Atkins-dieten är ju extrem och föreskriver
högst 20 gram kolhydrat per dag (motsvarar 4% av totala energiintaget [4 E%] vid 2000 kcal/dag)
under de 2 första veckorna – sedan får man vecka för vecka successivt öka kolhydratintaget med 5
gram per dag. I vår övning definierade vi låg-kolhydratdiet som en diet där ≤40 E% tillgodoses med
kolhydrater (motsvarar 200 gram kolhydrat per dag vid 2000 kcal/dag). Eftersom proteinintaget
brukar ligga runt eller strax under 20 E% blir då energiintaget i form av fett 40 E% (energin från
3
kolhydrater, fett och proteiner ska addera ihop till 100%1). Med den definitionen inkluderas också
den ursprungliga Atkinsdieten. Återigen är det du som ställer frågan som måste bestämma, så i ett
annat sammanhang kanske du hade bestämt dig för en annan definition. Ibland finner du, när du
gjort dina första preliminära sökningar, att det inte finns några studier som exakt motsvarar din
definition, men att det finns studier som använt en annorlunda definition. Kan resultat från studier
som använt den definitionen överföras till den situation som du ursprungligen ville få belyst? Att
svara på den frågan kräver medicinska grundkunskaper. Därför kan EBM aldrig ersätta din
läkarutbildning.
C: Comparison: Det är sannolikt oetiskt att allokera diabetespatienter till att äta vad som helst utan
restriktioner. Alla får någon form av kostråd. Eftersom låg-fettdiet är det dominerande kostrådet som
idag ges till patienter med typ-2 diabetes så är det den naturliga jämförelsebetingelsen, men det
finns många varianter. Ett fettintag på 30 E% är ett vanligt behandlingsmål, men den i Sverige
förhärskande rekommendationen från European Association for the Study of Diabetes (EASD) sätter
gränsen vid 35 E% (30 E% om behov finns för viknedgång). Här handlar det ju om överviktiga
patienter, så 30 E% verkar vara en lämplig ledstjärna. Vid dessa låg-fettdieter hamnar kolhydratintaget på 50-55 E%. Kolhydraternas sammansättning kan varieras, men ofta rekommenderas fullkornsprodukter och produkter med lågt glykemiskt index (GI). Vid övningen bestämde vi att ha en
kost med ≤30 E% fett, 15-20 E% protein och 50-55 E% kolhydrat (med eller utan specificerat GIvärde) som jämförelse. En fråga som uppstår är om jämförelsen ska vara isokalorisk (dvs. om båda
kosterna som jämförs i en studie ska ha samma energiinnehåll). Vid övningen krävde vi inte att de
jämförda dieterna skulle ha samma energiinnehåll, dels därför att kaloribehovet ofta bestäms
individuellt baserat på kroppsmått och grad av fysisk aktivitet, dels för att det, när ambitionen är att
uppnå isokaloriska förhållanden, i praktiken är väldigt svårt att erhålla en perfekt balans mellan
behandlingsarmarna.
O: Outcome: Det finns ännu inga studier av tillräcklig storlek för att belysa hårda utfall som död,
kardiovaskulär sjuklighet eller andra allvarliga diabeteskomplikationer, så man får fortfarande nöja
sig med surrogatmått som glykemisk kontroll (förändring av HbA1C), viktnedgång, och förändring av
lipidstatus (triglycerider, HDL kolesterol, kvoten total:HDL-kolesterol, triglycerider, LDL-kolesterol).
De initiala studierna rörande låg-kolhydratkost var i regel korttidsstudier över veckor upp till 3
månader. Det har visat sig att metabola parametrar som vikt, HbA 1C, och blodfetter inte stabiliserat
sig efter 3 månader, så status ≥1 år efter behandlingsstart bör vara utfallsmått.
Man kan alltså specificera sin PICO-fråga enligt följande:
Population/patientkategori
Intervention
Control
Outcome
Patienter med kost- eller
läkemedelsbehandlad typ-2
diabetes mellitus och BMI ≥25
Låg-kolhydratdiet där
≤40 E% tillgodoses med
kolhydrater
Låg-fettdiet med ≤30 E%
fett, 15-20 E% protein
och 50-55 E% kolhydrat
(med eller utan
specificerat GI-värde)
Förändring av HbA1C 1
år efter
behandlingsstart
Eller mer fritt:
1
Eftersom det inte är tillrådligt att öka proteinintaget hur mycket som helst innebär lågt kolhydratintag att
andelen fett med automatik ökar. Därför kallas låg-kolhydratdieter ofta för ”low carbohydrate high fat” (LCHF)dieter.
4
Bland patienter med kost- eller läkemedelsbehandlad typ-2 diabetes mellitus och BMI ≥25, leder lågkolhydratdiet med ≤40 E% kolhydrater till större förbättring av HbA1C 1 år efter behandlingsstart än
vad låg-fettdiet med ≤30 E% fett och 50-55% kolhydrat gör?
Liknande frågor kan sedan ställas med förändring av vikt, HDL-kolesterol, triglycerider som utfall. De
kan alla potentiellt besvaras med ett ja eller ett nej.
Beskriv din sökstrategi:
Cochrane Library
I bakgrundsinformationen till uppgiften framgår att du redan sökt på Cochrane Library, men att den i
och för sig helt relevanta översikten som du hittade inte var up-to-date. Som yrkesverksam läkare
bör Cochrane Library alltid vara ditt förstahandsval av databas. Cochrane Library består (främst) av
det som kallas Cochrane Reviews. Det är systematiska översikter, mycket noggrant utförda och man
brukar säga att dessa hamnar högst upp i evidenshierarkin (se nedan), åtminstone om den
systematiska översikten baserar sig på randomiserade kontrollerade prövningar (RCTs), vilket de
flesta Cochrane-översikter gör. Man måste vara medveten om att det finns förhållandevis få
Cochrane Reviews i Cochrane Library (drygt 5000), så sannolikheten för att hitta en översikt som
exakt svarar mot din PICO-fråga är ganska liten. Å andra sidan gör det begränsade antalet att det är
ganska lätt att söka: Man behöver i regel bara skriva en eller två söktermer för att få en träfflista som
man lätt kan gå igenom manuellt. Till yttermera visso är Cochrane-översikternas titlar strukturerade
enligt PICO-modellen och därmed är det mycket lätt att veta om en översikt är relevant för just dig.
På skärmdumpen på nästa sida visas vad som kom fram när jag skrev in ”low-carbohydrate diet type
2 diabetes” i Cohrane Library’s sökruta: Upp till vänster (den övre röda pilen) finns en lista med träffkategorier (Cochrane Reviews; Other Reviews; Trials; Methods Studies; Technology Assessments;
Economic Evaluations; Cochrane Groups) som man kan välja mellan genom att klicka i ringarna till
vänster om kategorierna. Det visade sig finnas en Cochrane Review, och 40 Trials (i regel de
randomiserade kontrollerade prövningar som beaktats i de listade Cochrane Reviews). När man
klickar på en träffkategori listas alla enskilda träffar med titel, författare och klickbar länk lite längre
ned på sidan (den nedre röda pilen). Som du märker var det den Cochrane Review som redan
nämndes i bakgrunden till uppgiften, och som bara var up-to-date till och med 30 oktober 2006.
5
Systematiska och narrativa översikter (reviews)
Här är det på sin plats med en allmän kommentar om översiktsartiklar (eller ”reviews”). Man brukar
dela upp översikter i systematiska och narrativa (berättande). Systematiska översikter karaktäriseras
av att de följer en strikt metodologi, och till skillnad från narrativa översikter finns det en metoddel,
precis som i vanliga vetenskapliga originalartiklar. Metoddelen i vetenskapliga artiklar bör vara så
utformad att andra forskare ska kunna göra om studien på precis samma sätt och på så sätt replikera
resultaten. I metoddelen av systematiska översikter brukar man finna den vetenskapliga frågan (i
idealfallet formulerad enligt PICO-modellen), en noggrann beskrivning av sökstrategier och av utfallet
av sökningen, samt en detaljerad redogörelse för hur identifierade artiklar kvalitetsvärderades och
hur resultaten sammanvägdes till en sammanfattande evidensgrad.
En av poängerna med systematiken i sökningarna är att hitta ALLA relevanta originalartiklar, inte bara
de som lättast kommer fram i en snabb sökning (det finns risk för att positiva studier publiceras i
bättre tidskrifter och får större uppmärksamhet medan negativa studier tenderar att hamna på
undanskymda platser i den medicinska litteraturen – publikationsbias!). I resultatdelen, eller som
supplementärt material, bör det finnas en lista med de relevanta artiklar som förkastats, med skälen
till varför de inte tagits med. Det bör också finnas tabeller som visar vilka studier som inkluderats,
gärna med information om vissa nyckeldetaljer. Slutsatserna bör vara evidensgraderade.
Om en systematisk översikt uppfyller dessa krav, bygger på flera välgjorda RCTs (randomiserade
kontrollerade trials, se nedan) med samstämmiga resultat, och dessutom är 100% relevant för din
frågeställning så är det bingo! I narrativa översiktsartiklar, å andra sidan, saknas garantier för att
litteraturen dammsugits och att alla artiklar beaktats. Det finns sällan en kvalitetsvärdering av inkluderade artiklar, och slutsatserna är inte evidensgraderade.
Även om det finns många bra narrativa översiktsartiklar (som kan vara väldigt värdefulla när man
snabbt ska sätta sig in i ett nytt område) så finns det också många exempel på riktigt dålig och
tendentiös redovisning. Vem som helst kan skriva en narrativ översikt; i typfallet är det en lokal
auktoritet som ligger bakom – inte sällan en känd proponent för en viss behandlingsstrategi, med
6
starka förutfattade meningar om sakernas tillstånd. Det kan vara svårt för författaren att låta bli att
särskilt lyfta fram artiklar som ger stöd för den egna åsikten. Eftersom den medicinska litteraturen är
enorm går det påtagligt ofta att hitta någon eller några artiklar som stöder ens åsikt, hur udda den än
må vara. Och om man tillåter sig att ”shoppa runt” och skippa allt som motsäger den egna tesen så
går det att bevisa nästan alla åsikter. Det finns också många exempel på översikter som skrivits av
författare med nära anknytning till kommersiella intressen (t.ex. läkemedelsbolag) och som haft som
uppenbart syfte att presentera den vetenskapliga litteraturen på ett positivt sätt för det egna
företaget eller branschorganisationen.
Därför bör man undvika att basera EBM-slutsatser på narrativa översikter. Detta står i bjärt kontrast
till hur medicinsk kunskap spreds för 20-30 år sedan. Då lyssnade den breda medicinska professionen
främst på auktoriteter (läkemedelsindustrin kallar dem för opinion leaders), som spred sina budskap
via framträdanden på kongresser och via just narrativa översikter. Eftersom auktoriteterna var
auktoriteter just därför att de var extra kunniga inom sina områden så fungerade detta system ganska
hyggligt, men det var sårbart.
Evidenshierarki
Hittar man inga systematiska översikter baserade på RCTs måste man ha en strategi för att få fram
”det näst bästa”. Det är alltså viktigt att värdera identifierade artiklars kvalitet. Kvaliteten av en
enskild studie bestäms dels av studiedesignen, dels "utförandet" av studien. Studiedesignernas
evidensvärde kan rangordnas (från bästa till sämsta) i:
1. SYSTEMATISK översikt baserad på flera randomiserade kontrollerade trials (RCTs).
2. Randomiserad kontrollerad trial.
------------3. Systematisk översikt baserad på flera observationsstudier (kohort- och fall-kontroll-studier)
4. Observationell prospektiv (framåtblickande) kohortstudie
5. Fall-kontroll-studie
6. Fallserie/patientmaterial utan jämförelsegrupp
7. Fallbeskrivning.
Den viktigaste vattendelaren går mellan nivå 2 och 3, nämligen mellan "experimentella" och
"observationella" ansatser. Om undersökaren kan allokera deltagare till den aktuella interventionen
respektive kontrollbetingelsen och detta sker strikt slumpvis så fördelas potentiellt viktiga olikheter
mellan olika patienter (t.ex. utgångsvikt, fysisk aktivitet, komplicerande co-morbiditet, dvs. faktorer
som kan påverka utfallet) lika mellan interventionsgrupp och kontrollgrupp. Om grupperna är
tillräckligt stora blir fördelningarna av dessa viktiga variabler nästan exakt lika i interventionsgruppen
och kontrollgruppen. Det enda som skiljer grupperna åt är just interventionen. Då har man eliminerat
tillblandning (confounding) av effekter från dessa störande variabler (confounders eller
förväxlingsfaktorer).
I observationsstudier kan man inte garantera att grupperna blir lika eftersom det inte är slumpen
som avgjort om en patient blivit föremål för den studerade behandlingen. Det finns nästan alltid ett
gott skäl till varför en patient får en viss behandling – skäl som ofta är kopplade till sannolikheten för
ett gynnsamt (eller ogynnsamt) hälsoutfall. På bilden på nästa sida ser du schematiskt hur två olika
potentiella förväxlingsfaktorer kan tänkas ändra ett samband mellan den studerade ”exponeringen”
7
låg-kolhydratdiet (blå ruta) och utfallet HbA1C (gul cirkel). Det är känt att hypertriglyceridemi leder till
förhöjda HbA1C-värden. Det är också rimligt att anta att diabetiker med förhöjda triglyceridvärden blir
rekommenderade att undvika låg-kolhydratkost (eftersom sådan kost med automatik innebär ett
högt fettintag – se ovan). Därför är sannolikt personer med hypertriglyceridemi underrepresenterade
bland diabetespatienter som följer en låg-kolhydratdiet, och det uppstår därmed ett omvänt
(negativt) samband mellan låg-kolhydratdiet och hypertriglyceridemi. Eftersom det senare tillståndet
tenderar att höja HbA1C uppstår ett falskt negativt
samband mellan låg-kolhydratkost och HbA1C. En
ytterligare möjlig förväxlingsfaktor är hög fysisk
aktivitet; man kan gissa att personer som vurmar för
LCHF-diet också tränar mer än de som har en
”standarddiet” (låg-fett). Personer med hög fysisk
aktivitet är alltså sannolikt överrepresenterade
bland diabetespatienter som har en låg-kolhydratdiet, och eftersom den fysiska aktiviteten tenderar
att driva ned HbA1C uppstår ett falskt negativt
samband mellan låg-kolhydratdiet och HbA1C. För att kunna vara en förväxlingsfaktor måste faktorn
själv påverka utfallet (positivt eller negativt) och dessutom vara positivt eller negativt associerad med
(men inte nödvändigtvis själv påverka) den studerade exponeringen.
Till skillnad från RCTs, där det är slumpen som gör att alla förväxlingsfaktorer – vare sig de är kända
eller okända – fördelas lika mellan behandlingsarmarna (och forskarna därför inte behöver bry sig
särskilt mycket om dessa faktorer), försöker man i observationsstudier istället MÄTA alla viktiga
förväxlingsfaktorer. Då kan man med statistiska metoder justera (kontrollera) för eventuella
olikheter mellan grupperna.
Om en RCT är slarvigt genomförd (t.ex. randomiseringsutfallet har kunnat förutses och manipuleras,
det har varit stort bortfall under uppföljningen, eller mätningen av utfallet kan ha påverkats av att
undersökarna kände till vilken behandlingsgrupp de utvärderade patienterna tillhörde) kan studien halka ned i rangordningen och till och med rankas lägre än en rigoröst genomförd observationell
kohortstudie med noggrann mätning av och strikt kontroll för alla tänkbara förväxlingsfaktorer.
Därför är det viktigt att kritiskt läsa igenom de artiklar som man får fram i sin sökning, och dessutom
att försäkra sig om att man inte missat relevanta träffar i kategori 1 och 2.
8
Sökning i PubMed
I PubMed finns drygt 23 miljoner referenser. Därför måste man vara mycket mer noggrann i sin
sökning än man behöver vara när man söker i Cochrane Library.
Ett bra sätt att lite enklare hitta klinisk forskning är att använda Clinical Queries som startpunkt. Det
hittar du på första sidan under PubMed Tools.
När man gör en sökning i Clinical Queries visas resultatet i tre olika kategorier – (i) kliniska studier; (ii)
systematiska översikter (kom ihåg att det PubMed kallar för systematiska översikter också innefattar
en del narrativa översikter och kliniska guidelines/behandlingsrekommendationer – du kan inte utgå
ifrån att allt som kommer upp är äkta systematiska översikter, hur du känner igen en systematisk
översikt har vi redan berört); (iii) studier inriktade på medicinsk genetik.
9
Vi har valt att söka på de för ämnet relevanta termerna ”low carbohydrate diet” och ”diabetes type
2”. Genom att klicka på ”See all” längst ned i varje kategori får man fram hela träfflistan. Där kan man
välja ”Show search details” för att se hur PubMed har tolkat sökningen.
Under rubriken translations ser man att PubMed har hittat MeSH-termerna ”diet, carbohydraterestricted” och ”diabetes mellitus, type 2” för de ord vi skrivit in i sökrutan och mappar oss till de
artiklar som blivit indexerade med dessa. PubMed har också sökt alla begreppen som fritexttermer i
alla fält (titel, abstract och adressfält).
MeSH-baserad sökning i PubMed
Ett sätt att begränsa sin sökning är att använda sig av MeSH Database. Den finns på PubMed-sidan
under More Resources. I MeSH-databasen skriver man in ett begrepp i taget och lägger dem i
10
PubMed Search Builder för att sedan utföra sökningen i PubMed. Resultaten kommer att innehålla
artiklar som blivit indexerade med de MeSH-termer du sökt på.
Att göra en sökning baserad på MeSH-termer är bara ett av de sätt man kan söka på. När man gör
MeSH-baserade sökningar söker man enbart på de MeSH-termer en artikel blivit indexerad med
(alltså inte i titel och abstract). Detta innebär att man riskerar att missa relevanta artiklar om de är så
nya att de ännu inte hunnit indexeras (samma sak gäller för fritextsökning med filter eftersom filtren
också bygger på MeSH-termer). Om man vill vara absolut säker på att inte missa någonting måste
man göra flera olika sökningar med olika kombinationer av sökbegrepp. T.ex. kan man se att man för
MeSH-termen ”Diet, Carbohydrate-Restricted” tidigare använt termen ”Dietary Carbohydrates”. Vill
man hitta de artiklar som handlar om lågkolhydratdiet innan år 2006 bör man söka även på ”Dietary
Carbohydrates”.
Vill man få med det allra senaste kan man inte nöja sig med en MeSH-baserad sökning. Då måste
man göra fritextsökningar med ord som man kan anta finns i titlarna och/eller abstracten, utan att
använda filter. Sådana sökningar ger ju i allmänhet väldigt mycket träffar, men eftersom problemet
bara gäller de allra nyaste artiklarna (som ju alltid kommer först i träfflistan) så behöver man oftast
bara gå igenom de första 20-30 träffarna manuellt.
Vilka artiklar beaktade du i din slutsats? (tips när du läser: ett kolhydratintag på 40 E% motsvarar 200
gram vid 2000 kcal/dag eller 150 gram 1500 kcal/dag. Ett kolhydratintag på 40 gram/dag motsvarar 8 E% vid
2000 kcal/dag och 11 E% vid 1500 kcal/dag):
När man fått ordning på sin sökning och fått fram ett hanterligt antal träffar, som någorlunda verkar
täcka PICO-frågan, bör ordningen vara att man FÖRST försöker vaska fram de artiklar som är
relevanta. Man brukar börja med att sortera bort sådana artiklar som man redan på titeln kan se är
irrelevanta. Sedan ögnar man igenom abstracten för de artiklar som blir kvar. Vad man bör leta efter
är artiklar som har stark studiedesign (RCTs och systematiska översikter) och som dessutom har rätt
intervention (låg-kolhydratdiet där ≤40 E% tillgodoses med kolhydrater) och rätt utfall (förändring av
11
HbA1C 1 år efter behandlingsstart), alltså rätt I och rätt O i din PICO. Sedan läser man bara de artiklar
som uppfyller dessa kriterier (och börjar med metoddelen för att se om studien verkar tillräckligt
väldesignad för att läsa fullt ut). Jag kan lova dig att det i de allra flesta fall inte blir mer än vad man
kan räkna på sina tio fingrar. Om det inte blir någon kvar (och det är inte ovanligt) får man sänka
kravet något och även inkludera observationsstudier, i första hand prospektiva (framåtblickande)
kohortstudier.
Eftersom en Cochrane-översikt indikerade att det inte fanns några studier av godtagbar kvalitet fram
t.o.m. 2006 behöver du i det här fallet kanske inte gå igenom alla relevanta träffar i din träfflista. Om
du har lyckats göra en bra sökning i PubMed, antingen genom Clinical Queries eller MeSH Database
kommer du att återfinns sex nyckelreferenser (RCTs av lågkolhydratdiet enligt din definition under I i
PICO, jämfört med lågfettdiet enligt din definition under C, och med ≥1 års uppföljning) på de första
träffsidorna, nämligen:
Guldbrand H, Dizdar B, Bunjaku B, Lindström T, Bachrach-Lindström M, Fredrikson M, Ostgren CJ,
Nystrom FH. In type 2 diabetes, randomisation to advice to follow a low-carbohydrate
diet transiently improves glycaemic control compared with advice to follow a low-fat diet producing
a similar weight loss. Diabetologia. 2012 Aug;55(8):2118-27. doi: 10.1007/s00125-012-2567-4. Epub
2012 May 6.
Davis NJ, Tomuta N, Schechter C, Isasi CR, Segal-Isaacson CJ, Stein D, Zonszein J, Wylie-Rosett J.
Comparative study of the effects of a 1-year dietary intervention of a low-carbohydrate diet versus a
low-fat diet on weight and glycemic control in type 2 diabetes. Diabetes Care. 2009 Jul;32(7):114752. Epub 2009 Apr 14. PubMed PMID: 19366978; PubMed Central PMCID: PMC2699720.
Iqbal N, Vetter ML, Moore RH, Chittams JL, Dalton-Bakes CV, Dowd M, Williams-Smith C, Cardillo S,
Wadden TA. Effects of a low-intensity intervention that prescribed a low-carbohydrate vs. a low-fat
diet in obese, diabetic participants. Obesity (Silver Spring). 2010 Sep;18(9):1733-8. Epub 2009 Dec 17.
PubMed PMID: 20019677.
Elhayany A, Lustman A, Abel R, Attal-Singer J, Vinker S. A low carbohydrate Mediterranean diet
improves cardiovascular risk factors and diabetes control among overweight patients with type 2
diabetes mellitus: a 1-year prospective randomized intervention study. Diabetes Obes Metab. 2010
Mar;12(3):204-9. PubMed PMID: 20151996.
Larsen RN, Mann NJ, Maclean E, Shaw JE. The effect of high-protein, low-carbohydrate diets in the
treatment of type 2 diabetes: a 12 month randomized controlled trial. Diabetologia. 2011
Apr;54(4):731-40. PubMed PMID: 21246185.
Wolever TM, Gibbs AL, Mehling C, Chiasson JL, Connelly PW, Josse RG, Leiter LA, Maheux P, RabasaLhoret R, Rodger NW, Ryan EA. The Canadian Trial of Carbohydrates in Diabetes (CCD), a 1-y
controlled trial of low-glycemic-index dietary carbohydrate in type 2 diabetes: no effect on glycated
hemoglobin but reduction in C-reactive protein. Am J Clin Nutr. 2008 Jan;87(1):114-25. PubMed
PMID: 18175744.
Kvalitetsgranskning av artiklar
12
En viktig del i EBM-arbetet är att bedöma kvaliteten på de artiklar som kommit upp. Vi har redan
konstaterat att studiedesignen är en viktig aspekt på kvalitet – det är i princip RCTs och systematiska
översikter (helst baserade på RCTs) som har högst värde. Orsakerna till detta har berörts i tidigare
avsnitt. Men därutöver måste man bedöma om utförandet av studien hållit måttet. Studiedesignen
är i sig ingen garanti emot systematiska fel.
Extern validitet
När man bedömer hoten mot en studies ”validitet” (giltighet – dvs. om studien verkligen mäter det
den utger sig för att mäta) brukar man skilja mellan ”intern validitet” och ”extern validitet”. Extern
validitet handlar om huruvida studiens resultat kan generaliseras till andra än dem som ingick i
studien. Vad var det egentligen för patienter som ingick i studien? Hur hade de rekryterats? Vad var
inklusions- och exklusionskriterier, och var de rimliga? Är utfallet rimligt och relevant för den kliniska
frågeställningen? I kliniska behandlingsstudier ska idealt alla nya patienter, precis i den ordning som
de kommer till kliniken, tillfrågas om deltagande. Det kallas konsekutiva patienter. Gå gärna in på
CONSORT (http://www.consort-statement.org), som är en webbsajt med ambitionen att öka
kvaliteten på rapporteringen från kliniska prövningar. Där finner du bl.a. en checklista över vad som
bör vara med i en fullödig rapport. Ett viktigt verktyg för att bedöma kvaliteten på studien är ett
flödesdiagram, som beskriver flödet av patienter genom studien. Flödesdiagrammet återfinns på
nästa sida. En RCT av god kvalitet bör alltid ha ett sådant flödesdiagram. Man delar upp studien i
rekryteringsfas (enrollment), behandlingstilldelning (allocation – idealt genom randomisering),
uppföljning (follow-up) och analysfas (analysis). Det är under rekryteringsfasen som den externa
validiteten avgörs. I flödesdiagrammet bör det anges hur många patienter som beaktades och som
bedömdes avseende valbarhet (eligibility – uppfyllde inklusionskriterierna) i studien, hur många som
hoppades över därför att de inte uppfyllde inklusionskriterierna, hur många som avböjde deltagande
(om en stor andel av alla valbara patienter avböjer att delta kan den grupp som slutligen deltar vara
väldigt speciell), och hur många som uteslöts av andra anledningar. Bland de sistnämnda finns de
som uppfyllt något exklusionskriterium. Exklusionskriterier kan t.ex. vara överkänslighet för någon av
de behandlingar som ingår i studien, patientkategorier som man av försiktighetsskäl inte vågar
exponera för ett nytt och ännu förhållandevis oprövat läkemedel (t.ex. patienter med andra allvarliga
sjukdomar, gravida eller ammande kvinnor, eller kvinnor som kan bli gravida under prövningen),
samt grupper som man misstänker kommer att ha dålig följsamhet med tilldelade behandlingar och
som kanske i värsta fall hoppar av studien under pågående uppföljning (drop-outs). Det kan vara
missbrukare och/eller psykiskt instabila personer. Sådana exklusionskriterier är rimliga. Men om det
är många som uteslutits av ytterligare andra orsaker eller av oklar anledning kan man möjligen
misstänka att undersökarna haft en förutfattad mening om vilken behandling som varit bäst och att
behandlingsallokeringen kunnat förutsägas. Om så varit fallet kan det tänkas att undersökarna
uteslutit patienter som de tror inte ”passar” för den ena eller andra behandlingen. Då finns det stor
risk för att det finns problem med den interna validiteten (se nedan).
13
Intern validitet
Intern validitet handlar om i vilken utsträckning de observerade effekterna är verkliga eller beror på
(eller påverkats av) olika typer av systematiska fel (bias). Gick randomiseringen schysst till? Kunde
randomiseringsutfallet förutses eller manipuleras? Idag krävs att randomiseringsförfarandet
beskrivits i detalj i den publicerade artikeln. Exempel på acceptabla randomiseringsförfaranden är
dragning av i förväg iordningsställda lappar med anvisning om vilken läkemedelsföpackning som
patienten ska få (under förutsättning att lapparna ligger i slutna kuvert och det inte går att lista ut
innehållet genom att hålla kuverten mot ljuset), och i förväg iordningsställda datorgenererade
randomiseringslistor (under förutsättning att listorna hålls enbart av ett oberoende
allokeringssekretariat dit undersökarna måste ringa för att få anvisning om vilken förpackning som
patienten ska tilldelas). Tärningskast eller färdiga randomiseringslistor som gör det möjligt för
undersökarna att i förväg se vilken behandling som är ”på tur” är inte acceptabla metoder därför att
14
de kan manipuleras och/eller förutsägas. Resulterade randomiseringen verkligen i fullt jämförbara
grupper eller fanns det viktiga obalanser vad gäller faktorer på kan tänkas påverka utfallet?
Behandlingsarmarnas likvärdighet brukar redovisas i en RCTs första tabell. Där kan man se om
faktorer som kan tänkas påverka utfallet är fördelade mellan behandlingsarmarna.
Fick deltagarna verkligen den föreskrivna behandlingen? Hur var följsamheten med behandlingen
(compliance [”discontinued intervention”, se ovanstående flödesdiagram])? Uteslöts deltagare från
studien efter randomisering (genom aktivt beslut från forskarna – withdrawals [”did not receive
allocated intervention”]) eller självvalt (dropouts [”lost to follow-up”])? Om det var (1) många som
uteslöts på grund av withdrawal, loss-to-follow-up eller non-compliance, om de som uteslutits hade
(2) en annan sannolikhet för att uppnå utfallet än de som inte uteslöts, och (3) andelen som uteslöts
var olika i behandlingsgrupp och kontrollgrupp finns det stor risk för att selektionsbias introduceras i
studien. Selektionsbias yttrar sig som positiva eller negativa samband mellan den studerade
behandlingen och förväxlingsfaktorer som påverkar sannolikheten för utfallet. Då kan man plötsligt
ha fått problem med confounding, trots att det är en randomiserad studie.
Tänk dig till exempel att du genomför en RCT av en aktiv behandling mot lunginflammation (med
placebo som jämförelse), men att den aktiva behandlingen har en biverkan som främst gör sig
påmind hos rökare, så att många rökare i
behandlingsgruppen hoppar av studien.
Tänk dig också att rökning inverkar negativt
på läkningen av lunginflammationer. Om
oproportionerligt många rökare hoppar av
just från den aktiva behandlingsarmen, och
man bara analyserar dem som genomfört
hela studien enligt protokollet kommer den
aktiva behandlingsarmen då att innehålla
en mindre andel rökare än kontrollarmen. Det kan leda till att resultaten vad gäller andelen som
tillfrisknat blir bättre i den aktiva behandlingsarmen, inte bara på grund av läkemedelseffekten, utan
på grund av selektionsbias orsakad av bortfallet. Det har alltså uppstått ett omvänt samband mellan
den aktiva behandlingen och andelen rökare, och man har plötsligt fått confounding från rökning
(effekten av den aktiva behandlingen blandas med effekten av att ha färre rökare i
behandlingsarmen).
Som en tumregel kan man säga att om mindre än 10% av deltagarna uteslutits/fallit bort efter
randomiseringen är det osannolikt att eventuellt resulterande selektionsbias har haft avgörande
betydelse för resultatet, medan om mer än 30% fallit bort är risken överhängande (särskilt om
andelen som fallit bort i behandlingsgruppen skiljer sig markant från motsvarande andel i
kontrollgruppen).
Kan man misstänka att utfallet i studien bedömdes olika bland patienter som randomiserats till den
studerade interventionen jämfört med dem som randomiserats till kontrollgruppen? Om de som
bedömde behandlingsutfallet känt till vilken behandlingsgrupp deltagarna ingick i finns risk för
informationsbias om utfallet. Om man som undersökare tror starkt på den nya behandlingen är det
väldigt lätt att man bedömer utfallet bland dem som fått den nya behandlingen mer ”välvilligt” än
bland dem som fått jämförelsebehandlingen. Denna risk kan minskas avsevärt om utvärderarna är
15
ovetande om (”blindade” för) vilken behandlingsgrupp patienterna ingått i. Detta kallas för en enkelblind studie. För att ytterligare minska risken att utvärderaren av utfallet ska styras av vetskapen om
behandlingstilldelningen är det vanligt att såväl patienterna själva som utvärderarna av utfallet
(undersökarna) är blindade för behandlingsallokeringen. Då finns det ingen risk för att patienterna
försäger sig. Detta kallas för en dubbel-blind studie, vilket är något av standard när det gäller RCTs av
läkemedel. Är man riktigt rigorös behålls blindningen under hela analysfasen (de som analyserar
känner bara till att vissa patienter fick behandling A och andra fick behandling B, men inte vilken av
behandlingarna som var den studerade nya behandlingen och vilken som var kontrollbehandlingen).
Detta kallas för en trippel-blind studie, och koden bryts först när alla analyser är slutförda.
Systematiska fel kan även uppstå under analysfasen. Om många deltagare utesluts ur analysen (t.ex.
därför att insamlade data varit ofullständiga) kan selektionsbias uppstå. Därför bör antalet som
uteslutits i analysen redovisas i flödesdiagrammet. Bias kan även uppstå om studien har många
alternativa utfallsmått och undersökarna inte i förväg definierat vad som är det primära utfallsmåttet. Den statistiska analysen går ut på att bedöma hur stor sannolikheten är att – om nollhypotesen är sann och det faktiskt inte finns någon effekt – av ren slump ändå få ett falskt positivt
resultat som är lika extremt som, eller mer extremt än, det som erhållits. Det är det som P-värdet
anger. Man vill ju ge slumpen så liten betydelse som möjligt, så P-värdet bör vara lågt. Någonstans
måste man sätta en gräns där man anser att slumpen är utesluten som förklaring till det erhållna
resultatet. Av konvention brukar man sätta den gränsen till 0,05 eller 5%. Det betyder att om man
skulle upprepa exakt samma studie 100 gånger (och det faktiskt inte finns någon effekt) kommer
man att få ett falskt positivt resultat (”statistiskt signifikant” – p<0,05) bara på grund av slumpen vid
endast fem av dessa upprepningar. Alla som är bekanta med sannolikhetslära vet dock att ju fler
försök man gör, desto större blir chansen att få ett /falskt positivt/ statistiskt signifikant resultat; det
är som att kasta en tärning – om du bara får hålla på att kasta din tärning tillräckligt många gånger så
får du till slut upp en sexa. På samma sätt är det om man har en lång rad med olika varianter av
utfallsmåttet och genomför multipla signifikans-test: till slut får man ett signifikant resultat. Därför är
det viktigt att man bestämt sig för ETT utfallsmått, som utgör det primära utfallsmåttet. Det är mot
detta utfall – och BARA mot detta utfall – som signifikansprövningen ska göras. Sekundära utfallsmått
(om man tydligt markerar att de är just sekundära) kan vara värdefulla för att explorera resultaten så
att man kan formulera nya hypoteser, som sedan får prövas i en NY studie. Men att låtsas som de var
primära utfallsmått är på gränsen till forskningsfusk. För att få RCTs publicerade i välrenommerade
tidskrifter krävs nuförtiden att undersökarna redan före studiens igångsättande publicerat studieprotokollet eller en synopsis på publika webb-sidor (t.ex.ClinicalTrials.gov (http://clinicaltrials.gov/)
eller http://www.controlled-trials.com/). Där måste man också ange vad som är primär utfallsvariabel. En kontroll på dessa webbsidor anbefalls varmt som en rutinåtgärd.
”Intention-to-treat” (ITT)-analys och ”per protocol-analys”
Som nämnts inledningsvis är randomisering det enda sättet som finns för att eliminera all tänkbar
confounding, även sådan confounding som man inte känner till eller ens misstänker. Det beror på att
det inte kan uppstå några samband mellan behandlingen och förväxlingsfaktorer som påverkar
utfallsmåttet. Men denna fullständiga elimination av confounding kan bara ske om randomiseringen
gått rätt till, och om randomiseringsresultatet lämnats intakt. Som vi redan konstaterat kan det
uppstå selektionsbias (som yttrar sig som positiva eller negativa samband mellan behandlingen och
förväxlingsfaktorer som påverkar sannolikheten för utfallet) om man efter randomiseringen börjar
16
exkludera deltagare, eller om deltagare själva lämnar studien. Då kan man plötsligt ha fått problem
med confounding, trots att det är en randomiserad studie.
Därför är man överens om att huvud-analysen ska inkludera ALLA som randomiserats, även dem som
senare exkluderats eller fallit bort. En sådan analys kallas ”Intention-to-treat”-analys eller ITT-analys.
Det är BARA om randomiseringsutfallet lämnats intakt (och randomiseringen gått rätt till) som man
kan vara säker på att det inte finns någon confounding. Det anses vara en svår brist om inte ITT-data
presenteras som huvudresultat. Vid en ITT-analys måste man emellertid ofta göra antaganden om
hur det gått för dem som fallit bort. Det kan göras på olika sätt. Om deltagarna haft upprepade
kontakter med undersökarna under uppföljningen är ett sätt att anta att det slutliga utfallet blev
detsamma som när man sist såg deltagaren i studien. Det kallas för ”last observation carried
forward” (LOCF). Ett annat och mer konservativt sätt är att anta att alla som inte fullföljt studien INTE
blivit förbättrade (”worst-case scenario”). Idag använder man företrädesvis någon av de många
statistiska imputeringsmetoder, där man använder data från andra fullföljande deltagare som så
mycket som möjligt ”liknar” den deltagare som fallit bort. Bäst är förstås att minimera bortfallet.
”Motsatsen” till ITT-analys är ”per protocol”-analys. Då analyseras bara de deltagare som faktiskt
genomgått hela interventionen och uppföljningen. Sådana analyser är värdefulla som supplementära
analyser eftersom man då inte behöver göra antaganden om utfallet, men man måste vara medveten
om att confounding inte längre är utesluten.
Bedömning av statistiskt underlag/precision
För att välja ett lagom antal deltagare i studien (”urvalsstorleksberäkning”) måste undersökarna först
bestämma sig för vilken risk man är villig att ta för att felaktigt ”acceptera” ett falskt positivt
resultat (dvs. risken för att felaktigt förkasta 0-hypotesen och få ett statistiskt signifikant resultat som
uppkommit bara på grund av slumpen när behandlingen i själva verket är overksam). Den risken
brukar vanligen sättas till 5% och brukar kallas signifikansnivån eller alfa. När du läser i artiklar att
undersökarna anser att resultatet är statistiskt signifikant (och förkastar 0-hypotesen) därför att
p<0.05 så har de applicerat signifikansnivån 5%. På föregående sida kunde du läsa om implikationerna av signifikansnivån och p-värdet. Sedan måste undersökarna bestämma sig för den minsta
effekt som de vill kunna säkerställa (den minsta effekt som är så viktig att den inte får missas). Om
effekten är pytteliten är den sannolikt inte kliniskt relevant, men när man sedan rör sig uppåt på
skalan kommer man till en punkt där effekten blir kliniskt betydelsefull. När man väl har bestämt sig
för denna punkt (eller effektstorlek) måste man bestämma sig vilken risk man är beredd att ta för
att felaktigt ”acceptera” ett falskt negativt resultat (dvs. risken för att inte kunna förkasta 0hypotesen och därmed få ett statistiskt icke-signifikant resultat när behandlingen i själva verket är
verksam – alltså risken att ”missa” effekten). Den risken (som brukar kallas beta2) sätts vanligtvis till
20% (eller mer ovanligt till 10%). Om en behandling faktiskt har en kliniskt relevant effekt (0hypotesen är i verkligheten falsk) och du gör om samma studie med beta=20% 100 gånger kommer
studien att ge ett falskt icke-signifikant resultat 20 gånger. Anledningen till att man inte väljer
beta=5%, precis som alfa, är att det behövs en kolossalt stor studie för att driva ned beta till så låga
nivåer – försåvitt man inte har en jättestor effekt av behandlingen, eller har satt alfa till betydligt
högre än 5%. Storleken på beta är nämligen beroende av 1) urvalsstorlek – ju fler deltagare ju lägre
2
Man brukar också tala om studiens ”power” att detektera en effekt. Power = 1 beta. Om beta är 20% (vilket
är detsamma som 0,2) blir power 0,8 eller 80%. Om beta är 10% blir power 90%.
17
beta; 2) effektstorlek – ju större effekt ju lägre beta; och 3) signifikansnivå – ju högre alfa, ju lägre
beta.
Baserat på dessa beslut kan statistikern räkna ut hur många deltagare som krävs. Som läsare av
studien måste du ta ställning till de underliggande besluten: Var övervägandena och beräkningarna
till grund för val av urvalsstorlek tydligt beskrivna? Var den minsta kliniskt relevanta effekten
förhandsdefinierad och var nivån rimlig? Var valet av alfa rimligt? Var valet av beta rimligt?
Om studien kommit till ett icke-signifikant resultat kan man inte utan vidare säga att det inte finns
någon effekt. Innan undersökarna kan dra en sådan slutsats måste de ange hur stor risken är för att
det är ett falskt negativt resultat och att de i själva verket missat en kliniskt viktig effekt. Om studien
är gravt underdimensionerad kan den risken vara väldigt stor. Om det inte finns någon urvalsstorleksberäkning med en redan specificerad beta/power, eller om undersökarna inte lyckades nå upp till det
antal deltagare som urvalsstorleksberäkningen föreskrev, måste de göra en s.k. post-hoc powerberäkning. Observera att en sådan beräkning inte behövs om resultatet var statistiskt signifikant. Då
kan man ju inte ha missat effekten.
Granskningsmallar
För att underlätta bedömningen av en studies kvalitet finns olika typer av granskningsmallar. De
hjälper dig att ställa de relevanta frågorna och att väga samman de olika kvalitetsaspekterna i ett
enda omdöme. På kurswebben finns en granskningsmall för behandlingsstudier (RCTs) som
ursprungligen utvecklats för SBU. Fördelen med den granskningsmallen är att den ”poängsätter” de
olika kvalitetsaspekterna så att de svåraste bristerna får en större vikt än de mindre betydelsefulla.
Mallarna finns i två versioner, en annoterad med diverse förklaringar (Kvalitetsgranskning av
vetenskapliga originalartiklar om behandling_v2.docx), och en kortare ”arbetsversion” utan
förklaringar (Kvalitetsgranskning av vetenskapliga originalartiklar om behandling_kort.docx). Den
kortare versionen finns som bilaga sist i detta dokument. I vår övning använder du denna
granskningsmall för att bedöma kvaliteten på de RCTs som kommit upp i sökningen.
Generellt är de aktuella studierna svaga. Det är oklart vilken typ av patienter som finns
representerade, och därmed blir den externa validiteten / generaliserbarheten oklar.
Randomiseringsprocessen är oftast dåligt beskriven, studierna är oblindade, compliance förefaller
överlag vara dålig, och bortfallet är stort (det är inga lätta studier att genomföra). Själva
studiedesignen är annars ganska okomplicerad och rapporterna ganska standardiserade och lättlästa.
Här följer en mer specificerad kritik, baserad på granskningsmallen:
Wolever et al: Tveksam extern validitet (poängsumma 9): Rekryteringsvägar ej beskrivna; hela flödet
från inbjudan inte beskriven enligt CONSORT; icke-deltagande redovisas inte. God intern validitet
(poängsumma 26): Ingen blindning av de som utvärderade effekten; bortfall på 19.8%. Adekvat
statistiskt underlag (poängsumma 6 av 7 möjliga).
Elhayany et al: Måttlig extern validitet (poängsumma 13): Stort ickedeltagande, oklara orsaker till
exklusioner. Undermålig intern validitet (poängsumma 4): Randomiseringen ej beskriven, men i en
annan publikation gällande samma studie (Fraser A, Abel R, Lawlor DA, Fraser D, Elhayany A. A
modified Mediterranean diet is associated with the greatest reduction in alanine aminotransferase
levels in obese type 2 diabetes patients: results of a quasi-randomized controlled trial. Diabetologia
18
2008;51:1616-22) framgår att det inte var någon riktig randomisering utan kvasi-randomisering
(alternerande sekvens, visserligen hanterad av en utomstående person); ingen blindning; ingen
tillfredsställande analys av följsamhet (bara E% kolhydrat redovisat); mycket stort bortfall (31%);
ingen primär utfallsvariabel; per protocol-analys. Tveksamt statistiskt underlag (poängsumma 3):
Minsta kliniskt relevanta effekt ej definierad; ingen motivering till samplestorlek; ingen
powerberäkning.
Iqbal et al: Hög extern validitet (poängsumma 15): Rekryteringsvägar oklart beskrivna, dock.
Undermålig intern validitet (poängsumma 12): Randomiseringen bara delvis beskriven; väsentliga
obalanser i baslinjedata (ehuru justerade med multivariat modellering); ingen blindning; mycket dålig
compliance; bortfall 53% (sic!), olika i behandlingsarmarna (kan sägas utgöra tillräcklig orsak för att
förkasta denna studie); per protocol-analys. Tveksamt statistiskt underlag (poängsumma 4 av 7
möjliga).
Davis et al: Måttlig extern validitet (poängsumma 12): Artificiella rekryteringsvägar (handplockade
prevalenta fall? Annonsering); stort icke-deltagande. Något tveksam intern validitet (poängsumma
21): Bara delvis beskriven randomiseringsprocedur, går ej att utesluta att den kunnat manipuleras
eller förutsägas; måttlig obalans i behandlingsgrupperna, justerat med multivariat modellering; ingen
blindning; 19% bortfall. Adekvat statistiskt underlag (poängsumma 6 av 7 möjliga).
Larsen et al: Måttlig extern validitet (poängsumma 13): Artificiella rekryteringsvägar (handplockade
prevalenta fall? Annonsering); stort icke-deltagande. Något tveksam intern validitet (poängsumma
21): Dålig följsamhet med interventionerna; ingen riktig ITT-analys. Adekvat statistiskt underlag
(poängsumma 6 av 7 möjliga).
Guldbrand et al: Måttlig extern validitet (poängsumma 10): Rekryteringsvägar oklart beskrivna,
möjligen handplockade patienter; bristande definition av utfallet. Något tveksam intern validitet
(poängsumma 20): Bristfälligt beskriven och möjligen inadekvat randomiseringsmetod; obalanser i
behandlingsgrupperna; ingen blindning; inget prioritering bland 17 olika utfall. Otillräckligt statistiskt
underlag: Mista relevanta kliniska effekt ej definierad, ingen samplestorleksberäkning, ingen post hoc
powerberäkning.
Ett genomgående mönster är att man efter 3 månader ser en mer tydlig effekt av låg-kolhydratkost
än av låg-fettkost vad avser viktnedgång och HbA1C, men att denna skillnad inte består, och att
skillnaderna är i stort sett obefintliga vid 12 månader.
Vilken är din slutsats?:
De fyra starkaste studierna (Wolever, Davis, Larsen och Guldbrand) samt den undermåliga Iqbal visar
samstämmiga resultat – ingen skillnad i effekt på vikt eller HBA1C efter ett år, men Davis (enbart) visar
förhöjt HDL kolesterol i låg-kolhydratgruppen. Elhayany visar bättre viktminskning, bättre HbA1C,
bättre HDL kolesterol, bättre triglycerider i låg-kolhydratdiet-armen. Ska det sammanvägda
evidensläget beskrivas som otillräckligt pga motstridiga resultat, eller ska man bortse från Elhayany’s
studie pga den dåliga interna validiteten, och säga att det finns måttligt starkt evidens (4 RCT:s, alla
med kvalitetsbrister) för att det efter 1 års dietbehandling inte föreligger någon skillnad mellan lågkolhydratdiet och låg-fettdiet vad avser viktnedgång och glycemisk kontroll? Jag lutar åt det
19
sistnämnda. När det gäller lipidförändringar är resultaten motstridiga och det måste sägas föreligga
otillräcklig evidens för några skillnader därvidlag mellan de två jämförda dieterna.
APPENDIX: Granskningsmall
Kvalitetsbedömning av randomiserade kontrollerade prövningar (RCTs)
1. Bedömning av extern validitet
Personer som uppfyller inklusionskriterierna benämns här "valbara".
a) Är inklusionskriterierna tydliga och acceptabla (kan man utläsa vilket medicinskt tillstånd
deltagarna egentligen har, och är definitionen förenlig med gällande kunskapsläge) ?
 Ja ( = 2)
 Nej (= 0)
b) Är valbara personer representativa för den målgrupp till vilken författarna vill generalisera sina
resultat?
 Ja, troligen (rekryteringsvägarna är väl beskrivna och förenliga med den kliniska verkligheten
– vanligen uppnås detta genom att konsekutiva* nya patienter tillfrågas. Vid interventionsstudier bland icke-patienter – urvalet är hyggligt representativt för målgruppen) (= 2)
 Går inte att säga (rekryteringsvägarna oklart beskrivna) (= 0)
 Troligen inte (rekryteringsvägarna är beskrivna, men situationen är artificiell – t.ex.
”handplockade” redan kända patienter [prevalenta fall], eller patienter rekryterade via
annonser) (= 0)
*) Med konsekutiva menas att alla nya valbara patienter som kommer till kliniken/mottagningen tillfrågas och
tas in i studien i den ordning som de kommit.
c) Redovisas hela flödet från inbjudan (enrollment) till randomisering, med alla exklusioner och
orsaker därtill, enligt CONSORT (se www.consort-statement.org)?
 Ja (= 2)
 Nej, men motsvarande information finns i texten (= 2)
 Nej, och motsvarande information ges ej (= 0)
d) Är icke-deltagande av så stor magnitud och sådan karaktär att det finns anledning att tro att
generaliserbarheten påverkas?
 Nej (= 2)
 Går inte att säga därför att icke-deltagande inte redovisas (= 0)
 Ja (= 0)
e) Är exklusionskriterierna tydliga och acceptabla?
 Ja (= 2)
 Nej (= 0)
20
f) Har antal och orsaker angivits för exkluderade personer (alltså FÖRE randomisering och återigen
bäst beskrivet i ett flödesdiagram)?
 Ja (= 2)
 Nej (= 0)
g) Finns en acceptabel definition av utfallsmåttet?
 Ja (= 3)
 Nej (= 0)
h) Är utfallsmåttet kliniskt relevant?
 Ja (= 2)
 Relevansen diskutabel (= 0)
 Relevans obefintlig  undersökningen bedöms sakna informationsvärde.
Om det finns åtminstone någon relevans i utfallsmåttet och den sammanlagda poängen är 14 eller
högre är den externa validiteten hög, om poängen är 10-13 är den externa validiteten måttlig, är
poängen 7-9 är den externa validiteten tveksam, och om poängen är under 7 kan den externa
validiteten inte bedömas.
2. Bedömning av intern validitet
2.1 Tilldelning av intervention eller behandling
a) Är randomiseringsproceduren beskriven?
 Ja, i detalj (= 3)
 Ja, delvis (= 1)
 Nej (= 0)
Om du inte svarat ”Nej” besvara även fråga b och c, hoppa annars till fråga d.
b) Kan det ha varit möjligt att manipulera randomiseringen?
 Nej (t ex ogenomskinliga kuvert, datorgenererad sekvens som finns hos någon annan än
prövningspersonalen) (= 1)
 Ja (t ex om metoden är slantsingling eller tärningskast, eller öppen randomiseringslista som
gör det möjligt att veta vilken betingelse som närmast i tur) (= 0)
c)
Medförde randomiseringen en oförutsägbar helt slumpmässig allokering (dvs fördelning av
deltagarna) mellan prövningsgrupperna?
 Ja (= 1)
 Nej (= 0)
d) Exkluderades patienter efter randomisering men före intervention?
 Nej, inte alls (= 3)
 Ja, men så få att det rimligen inte kunnat påverka resultaten (= 1)
 Ja, så många att resultaten potentiellt skulle kunna påverkas (= 0)
21
2.2 Gruppernas jämförbarhet
a) Finns en redogörelse för jämförbarheten mellan grupperna med avseende på kända faktorer som
kan tänkas inverka på resultatet (vanligtvis utgör detta Tabell 1 i en RCT)?
 Ja (= 1)
 Nej (= 0)
b) Förelåg några väsentliga brister i jämförbarheten, dvs. gruppskillnader (obalanser) i baslinjedata?
 Nej (= 1)
 Ja (= 0)
2.3 Blindning (maskering)
a) Gjordes försök till blindning, dvs. att maskera i vilken grupp försöksdeltagarna hamnade?
 Nej (= öppen prövning) (= 0)
 Enkelblind – de observatörer som utvärderade utfallet var blindade (= 2)
 Dubbelblind – både deltagarna och observatörerna var blindade (= 3)
 Trippelblind (dubbelblind + all resultatbearbetning utfördes innan prövningskoden bröts) (=4)
2.4 Följsamhet med given behandling (compliance)
a) Finns någon redogörelse för följsamhetens omfattning?
 Ja (= 1)
 Nej (= 0) Gå vidare till fråga 2.5
b) Var andelen med fullständig behandling acceptabelt* stor?
 Ja (= 2)
 Nej (= 0)
*Acceptabelt kan t ex vara att >80% av deltagarna fick >80% av den föreskrivna totaldosen.
2.5 Bortfall (antalet deltagare som inte har följts upp enligt studieprotokollet)
a) Finns en redogörelse för bortfallet samt uppgifter om orsakerna till detta?
 Ja (= 3)
 Nej (= 0) Gå vidare till fråga 2.6
b) Hur stor är risken att bortfallet kan ha snedvridit resultaten?
 Liten (exempelvis bortfall <10 %) (= 3)
 Medel (exempelvis bortfall 10-19 %) (= 2)
 Stor (exempelvis bortfall 20-29 %) (= 0)
 Mycket stor (exempelvis bortfall ≥30 %)  undersökningen bedöms ofta sakna
informationsvärde vilket kan innebära exklusion från evidensbedömning
2.6 Bedömning av biverkningar
a) Vidtogs acceptabla åtgärder för att samla in och registrera information om biverkningar?
22
 Ja, systematisk insamling och rapportering (= 2)
 Ja, begränsad beskrivning av inträffade biverkningar (= 1)
 Nej (= 0)
2.7 Analys av resultat
a) Var det huvudsakliga (primära) utfallsmåttet (resultatvariabel och mätmetod) definierat i
artikeln?
 Ja (= 1)
 Nej (= 0)
b) Var konklusionen angående studiens resultat baserad på detta utfallsmått (enligt a ovan)?
 Ja (= 1)
 Nej (= 0)
c)
Fanns en angiven förhandshypotes? (Varför skulle just denna behandling vara effektiv?)
 Ja (= 1)
 Nej (= 0)
d) Var sekundära utfallsmått definierade i artikeln?
 Ja (= 1)
 Nej (= 0)
e) Inkluderades data från alla randomiserade deltagare i analysen, och behölls de då i den
behandlingsgrupp som de från början allokerats till (intention-to-treat-analys, ITT)?
 Ja (= 4)
 Nej, man redovisar bara en ”per protocol”-analys eller motsvarande (= 0)
Max-poängen för intern validitet är 33. Om den sammanlagda poängen för intern validitet är över 28
måste studien anses ha utmärkt intern validitet. Om poängen är 25-28 kan den interna validiteten
sägas vara god. Om poängen är 20-24 kan den interna validiteten sägas vara något tveksam. Om
poängen är 15-19 är den interna validiteten bristfällig. Om poängen är under 15 är den interna
validiteten sannolikt undermålig och man bör överväga om man överhuvudtaget ska beakta dess
resultat.
3. Bedömning av statistiskt underlag / precision
3.1 Minsta kliniskt relevanta effekt
a) Var den minsta kliniskt relevanta effekten förhandsdefinierad?
 Ja (= 1)
 Nej (= 0)
b) Är den valda minsta kliniska relevanta effekten av rimlig storlek?
 Ja (= 1)
 Nej (eller ej angiven) (= 0)
23
3.2 Undersökningens statistiska styrka
a) Är överväganden och beräkningar till grund för val av urvalsstorlek (”sample size”) tydligt
beskrivna?
 Ja (= 2)
 Nej (= 0)
b) Hur stor var studiens ”power” (styrka) att påvisa den minsta kliniskt relevanta effekten?
 Power-beräkning är irrelevant eftersom det fanns en statistiskt signifikant effekt (=3)
 Power >90% (= 3)
 Power 80-89% (= 2)
 Power 70-79% (= 1)
 Power <70% (= 0)
 Power ej angiven trots icke-signifikant resultat (= 0)
Totalpoäng >4: Adekvat statistiskt underlag; 2-4 tveksamt statistiskt underlag; 0-1 otillräckligt
statistiskt underlag
24