In een eerder artikel besprak ik de resultaten van een niet gerandomiseerd onderzoek waarin het effect van 2 bloeddrukverlagende middelen werd nagegaan. Ik concludeerde dat het vertrouwen in dit onderzoek niet zo hoog was. De belangrijkste reden is het gebrek aan een door loting toegewezen behandeling (randomisatie). Waarom is dat zo belangrijk?

Onderzoek naar bedoelde en onbedoelde effecten
Allereerst is belangrijk om vast te stellen dat randomised controlled trials (RCTs) de meest betrouwbare vorm van onderzoek zijn, wanneer men het effect van een behandeling wil weten (ofwel therapeutisch onderzoek). Wanneer men echter bijvoorbeeld wil weten wat de prognose van een ziekte is of hoe vaak een ziekte voorkomt, zijn RCTs onnodig en vaak niet de beste vorm van onderzoek. De Canadese epidemioloog Olli Miettinen maakte bij onderzoek naar het effect van een behandeling het onderscheid tussen bedoelde en onbedoelde effecten (Miettinen, 1983). Alleen bij bedoelde effecten is randomisatie noodzakelijk, omdat kennis van de prognose van de patiënt de keuze van de behandeling kan beïnvloeden. Immers, hoe slechter de verwachte prognose zonder behandeling is, des te groter de neiging is de behandeling toe te passen. De verwachte prognose kan gezien worden als een indicatie voor de behandeling. Niet de onderzochte behandeling veroorzaakt dan bijvoorbeeld de betere prognose, maar de door de dokter ingeschatte prognose die hem deed besluiten een van de 2 mogelijke middelen voor te schrijven. Dit wordt ook wel ‘confounding by indication’ genoemd. Die noodzaak is er minder bij onderzoek naar onbedoelde effecten van de behandeling (ongewenste bijwerkingen). Niet gerandomiseerd observationeel onderzoek is hierbij soms zelfs beter. Uit doelmatigheidsoverwegingen zijn de meeste RCTs namelijk van relatief korte duur. Omdat veel bijwerkingen relatief zeldzaam zijn, kunnen deze vaak pas na langere tijd behandelen van een groot aantal personen worden waargenomen. Wel zijn contra-indicaties voor behandeling meestal voorspellend voor het optreden van bijwerkingen van behandelingen. Deze treden echter maar bij een deel van de patiënten op en hier zijn met slimme vormen van studiedesign (o.a. restrictie) wel betrouwbare resultaten te verkrijgen. Voor van tevoren onbekende bijwerkingen kan confouding by contraindication bovendien geen rol spelen. Desalniettemin zou de RCT ook voor bijwerkingen de onderzoeksopzet van voorkeur zijn, indien er geen beperking was aan de grootte of de duur van een RCT.

Vergelijkbare prognose
De centrale kwestie bij onderzoek naar het effect van therapeutische interventies is dat de twee groepen die of de te onderzoeken behandeling of de standaardbehandeling (of een placebo) krijgen een vergelijkbare prognose moeten hebben. Heeft een van beide groepen vooraf al een betere of slechtere prognose, dan is kan een verschil aan het eind van de studie net zo goed daaraan ten grondslag liggen in plaats van een effect van de behandeling. Daarom wordt bij voorkeur een RCT gedaan, opdat beide groepen als gevolg van randomisatie een vergelijkbare prognose hebben. Mits de onderzoekers de nodige voorzorgen in acht nemen zijn eventuele verschillen aan het eind van de studie zijn toe te schrijven aan de behandeling of ze berusten op toeval.

Quasi-experimentele studies
Behalve door randomisatie kan men ook op andere manieren zorg dragen dat de prognose in beide groepen vooraf aan de studie vergelijkbaar is. Quasi-experimentele studies of observationele studies met overeenstemmende controles kunnen dicht in de buurt komen. Voorwaarde is dan wel dat de keuze voor de behandeling onafhankelijk van de verwachte prognose is gemaakt. Dit is in de praktijk vaak lastig.

Achteraf corrigeren voor verschillen
Een andere manier om met observationeel therapeutisch onderzoek valide resultaten te bereiken is het achteraf corrigeren voor verschillen in de eigenschappen van beide groepen (case mix) vooraf aan de studies. Dat klinkt aantrekkelijk, maar het is de vraag of dit vertekening kan wegnemen, zoals o.a. betoogd door de Amerikaanse statisticus Lincoln Moses. Dat geldt vooral bij het gebruik van routinematig in databanken vastgelegde gegevens, zoals in het eerder besproken artikel van Magid en collega’s (Magid, 2010). Ten eerste moeten we kennis hebben over welke variabelen rekening gehouden moet, ten tweede moeten die variabelen bij iedere deelnemer accuraat worden gemeten en tenslotte moeten die metingen op de juiste wijze worden gebruikt om de resultaten te corrigeren(Moses, 1995). Het is vooral discutabel of alle variabelen, waarmee rekening gehouden moet worden, ook zijn gemeten. Wat we namelijk doorgaans niet kunnen terugvinden, zelfs niet in goed opgezette databases, is waarom sommige patiënten de ene en de rest de andere behandeling onderging, terwijl dit gegeven misschien wel het allerbelangrijkste is (Byar, 1991). Moses pleit er daarom ook voor om de reden voor de behandelingskeuze in dit soort databases te documenteren.

Empirisch onderzoek
Meer recent ging de Britse statisticus John Deeks met empirisch onderzoek na of observationele studies de goede antwoorden kunnen geven en of statistische correctie achteraf nog wat valt te redden. De conclusies van dit Health Technology Assessment waren:
De resultaten van niet gerandomiseerde studies verschillen soms, maar niet altijd van die van RCTs met dezelfde onderzoeksvraag. Niet gerandomiseerde studies kunnen nog steeds ernstig misleidende resultaten geven, wanneer de interventie- en controlegroep ogenschijnlijk vergelijkbare prognostische factoren bezitten. Het achteraf corrigeren voor verschillen in case mix garandeert niet dat vertekening (bias) adequaat is weggenomen. In sommige situaties blijken de gecorrigeerde resultaten zelfs meer vertekend dan zonder correctie voor case mix (Deeks, 2003).

Conclusie
Niet gerandomiseerde studies naar het effect van behandelingen hebben een grote kans op vertekening, omdat de keuze van de behandeling kan samenhangen met prognostische factoren vooraf aan de studie. Achteraf corrigeren voor deze prognostische verschillen vooraf is conceptueel niet goed mogelijk, vooral omdat we meestal niet weten WAAROM iemand een bepaalde behandeling kreeg. Dit wordt bevestigd door de resultaten van empirisch onderzoek.

Om het effect van een behandeling te evalueren geven gerandomiseerde studies dus de meest betrouwbare antwoorden. Dit is zo sinds de resultaten van de eerste trial waren gepubliceerd (Medical Research Council, 1948) en dit verandert niet door innovatieve doelmatige studies.
Is er dan helemaal geen rol voor niet gerandomiseerde studies bij de beoordeling van het effect van een behandeling? Die is er zeker. Zie hierover een volgend artikel op mijn weblog.

Piet Post, September 2011

Post Voor Zorg

Literatuur
Byar DP. Problems with using observational databases to compare treatments. Stat Med. 1991 Apr;10(4):663-6.
Deeks JJ, Dinnes J, D’Amico R, Sowden AJ, Sakarovitch C, Song F, Petticrew M, Altman DG; Evaluating non-randomised intervention studies. International Stroke Trial Collaborative Group; European Carotid Surgery Trial Collaborative Group. Health Technol Assess. 2003;7(27):iii-x, 1-173. Review.

Magid DJ, Shetterly SM, Margolis KL, Tavel HM, O’Connor PJ, Selby JV, Ho PM. Comparative effectiveness of angiotensin-converting enzyme inhibitors versus beta-blockers as second-line therapy for hypertension. Circ Cardiovasc Qual Outcomes. 2010 Sep;3(5):453-8.

Medical Research Council. Streptomycin treatment of pulmonary tuberculosis. BMJ 1948;2:769­82.

Miettinen OS. The need for randomization in the study of intended effects. Stat Med. 1983 Apr-Jun;2(2):267-71

Moses LE. Measuring effects without randomized trials? Options, problems, challenges. Med Care. 1995 Apr;33(4 Suppl):AS8-14.

 

Waarom vertrouwen we niet gerandomiseerd onderzoek minder?