„Wissenschaftlich bewiesen“ – woran man eine gute Studie erkennt

Studien finden sich überall. Aber nicht jede Untersuchung ist gut oder belegt das, was sie behauptet, auch wirklich. Was wichtige Qualitätsmerkmale von Studien sind, auf die man immer achten sollte.

Von Dr. Laura Weisenburger (Bauchchirurgin, Redakteurin) • Wissenschaftliche Prüfung: Dr. Roland Mühlbauer (Arzt)

So schöne Ergebnisse! Aber hinter besonders beeindruckende Zahlen aus Studien sollte man immer einen genauen Blick werfen.
© Getty Images/imagenavi

„Wissenschaftlich untersucht“, „in Studien nachgewiesen“ – das sind Schlagworte, die uns immer wieder begegnen, sei es in den Kommentarspalten der sozialen Medien oder auf der Flasche mit angeblich straffender Hautcreme. Dann sind wir schnell überzeugt: Was wissenschaftlich untersucht wurde, muss auch stimmen.

Dabei ist der Begriff der Studie nicht geschützt oder genauer definiert. Im Grunde kann jeder behaupten, er habe eine Studie durchgeführt, nur weil man zwei Wochen lang die Haare mit einem bestimmten Shampoo gewaschen hat. Dementsprechend häufig wird das Gütesiegel „in Studien erprobt“ verwendet, obwohl die Untersuchung alles andere als wissenschaftlich war oder grobe methodische Fehler enthält.

Es lohnt sich also zu wissen, wann man sich auf eine Aussage über die Wirksamkeit von Körpercreme, Shampoo oder Schmerztablette verlassen kann und wann nicht. Im Folgenden haben wir ein paar der häufigsten guten – und schlechten – Kriterien bei Studien zusammengefasst und erklären, wie man sie richtig interpretiert.

Wo wurde die Studie veröffentlicht?

Die Frage, wo eine Studie veröffentlicht wurde, ist gar nicht so unwichtig. Sie sollte ganz zu Anfang gestellt werden, denn oft findet man die angebliche Untersuchung, die zum Beispiel in einer Werbeanzeige erwähnt wird, gar nicht. Dann lässt sich nicht nachvollziehen, ob die Methoden der Studie sauber waren oder die Ergebnisse repräsentativ sind. Es lohnt sich also, nachzuforschen.

Gerade große, renommierte Wissenschaftsmagazine achten darauf, dass die bei ihnen veröffentlichten Studien qualitativ wichtige Kriterien erfüllen. Zu den größten und renommiertesten Zeitschriften gehören unter anderem Nature, das New England Journal of Medicine, das British Medical Journal oder das Lancet. Aber auch viele weitere Fachzeitschriften (die inzwischen natürlich vor allem digital lesbar sind) haben einen hohen sogenannten Impact-Faktor. Der Faktor beschreibt eigentlich nur, wie häufig Artikel aus einem Magazin in anderer Fachliteratur zitiert werden. Indirekt ist aber der Einflussfaktor, wie man den Begriff übersetzen kann, inzwischen zu einem gewissen Qualitätsindikator in der Wissenschaft geworden. Aber Vorsicht: Nur weil eine Untersuchung in einem Magazin mit hohem Impact-Faktor erschienen ist, bedeutet es nicht automatisch, dass sie auch gut gemacht wurde.

Was ist der peer review?

Peer review ist – wie viele weitere Schlagworte in der Wissenschaft – ein englischer Begriff und heißt übersetzt: von Kollegen geprüft beziehungsweise begutachtet. Ein deutscher Begriff, der dafür verwendet wird, ist Kreuzgutachten. Dahinter verbirgt sich die Praxis, mit der die meisten angesehenen Wissenschafts-Magazine inzwischen arbeiten: Eine neue Untersuchung wird erst einem unabhängigen Team (aus dem gleichen Fachgebiet) vorgelegt, welches nichts mit der Studie zu tun hat. Dieses Team liest die Studie vor ihrer Veröffentlichung kritisch durch und äußert sich auch zu eventuellen Mängeln. Dann kann nachgebessert werden. Methodisch sehr fehlerhafte Studien werden so herausgefiltert.

„Ein peer review ist die Kontrolle der Wissenschaftler über den Autor oder die Autoren der Studie. Und das ist ganz wichtig, denn ohne Kontrolle können Sie schreiben, was Sie wollen“, sagt Prof. Gerd Gigerenzer.[1] Er war lange Jahre Direktor des Max-Plancks-Instituts für Bildungsforschung und ist derzeit Direktor des Harding-Zentrums für Risikokompetenz an der Universität Potsdam.

Was ist ein Interessenkonflikt bei Studien?

Der Shampoo-Hersteller, der sein eigenes Shampoo in einer Studie testet, befindet sich in einem Interessenkonflikt. Diejenigen, die über die Auswahl der Teilnehmenden und die Untersuchungsmethoden einer Studie entscheiden, haben ein Interesse daran, dass ein – für sie – gutes Ergebnis herauskommt. Damit sind sie voreingenommen, denn ein positives Ergebnis heißt auch: mehr wirtschaftlicher Gewinn.

Bei Shampoos ist der Schaden – vielleicht weniger glänzende Haare – überschaubar. Schwieriger wird es aber, wenn zum Beispiel medizinische Leitlinien, also Behandlungsempfehlungen, oder Untersuchungen von Pharmafirmen gesponsort werden. Dann ist das Interesse größer, ein Medikament der Firma in der Leitlinie besonders zu empfehlen, obwohl es nicht besser wirkt als andere.

Nehmen Sie an, Sie sind Mediziner und diese nette Firma gibt Ihnen viel Geld, um eine Studie durchzuführen. Da hat man eine ganz menschliche Tendenz die Ergebnisse positiv darzustellen

Prof. Gerd Gigerenzer, Direktor des Harding-Zentrums für Risikokompetenz an der Universität Potsdam

Gigerenzer beschreibt die Problematik konkret: „Nehmen Sie an, Sie sind Mediziner und diese nette Firma gibt Ihnen nun viel Geld, um eine Studie durchzuführen. Und Sie finden aber etwas, was nicht den Erwartungen entspricht, dann hat man eine Tendenz – eine ganz menschliche Tendenz – das doch ein bisschen positiver darzustellen. Denn man fürchtet, dass es beim nächsten Mal eben keine Forschungsförderung mehr gibt.“

In der Medizin kommen Interessenkonflikte immer wieder vor – manchmal sind sie auch nicht vermeidbar, wie etwa, wenn eine Firma die Studien zu ihrem neu entwickelten Medikament selbst finanzieren muss. Das sollte aber in der Untersuchung deutlich gemacht werden. In diesen Fällen ist es besonders wichtig, auf andere Kriterien, wie Randomisierung und Verblindung zu achten, denn auch mit einem Interessenkonflikt können saubere Studien durchgeführt werden.[2]

Was ist eine objektive oder subjektive Messung?

Objektiv messen lassen sich zum Beispiel Blutwerte, die Herzfrequenz oder das Körpergewicht. Hier geht es um konkret messbare Daten.

Bei subjektiven Messungen schätzen sich die Befragten selbst ein. Etwa, wieviel Kaffee, Zucker oder Salz sie in der vergangenen Woche zu sich genommen haben oder auch, wie entspannt oder ängstlich sie sind. Bei dieser Messung fällt schnell auf: Es kann auch falsche Einschätzungen geben. Bei Ernährungsstudien entsteht oft das Problem, dass Salz- und Zuckerkonsum unterschätzt werden.

Bei anderen Aspekten kann auch eine Rolle spielen, dass Antworten an die gesellschaftlichen Erwartungen angepasst werden. Niemand gibt gern zu: Ich verbringe 18 Stunden am Tag mit Videospielen oder esse jeden Tag mindestens eine ganze Tüte Chips. Andererseits können gerade Verhaltensweisen wie die Ernährung oder Gefühlslagen nur durch subjektive Messungen erfasst werden. Das sollte man im Hinterkopf haben, wenn Studien zu bestimmten Ernährungsweisen raten oder diese ablehnen.[3]

Was heißt randomisiert, kontrolliert, verblindet?

„Randomisierte, kontrollierte, verblindete Studie“ beschreibt wichtige Qualitäten, die insbesondere Untersuchungen zum Beispiel zur Wirksamkeit von neuen Medikamenten aufweisen. „Das Studiendesign der randomisierten, kontrollierten Studien ist der beste Standard für den Wirksamkeitsnachweis von Arzneimitteln oder Therapien“, erklärt Dr. Angelika Eisele-Metzger. Sie ist wissenschaftliche Mitarbeiterin am Institut für Evidenz in der Medizin des Universitätsklinikums Freiburg und bei der Cochrane Deutschland Stiftung. Randomisierte, kontrollierte Studien werden oft als RCTs abgekürzt (für Englisch: randomized controlled trial). Was bedeuten die einzelnen Kriterien genau?

  • Randomisiert: Alle Teilnehmenden der Studie werden zufällig (randomisiert) in entsprechende Gruppen aufgeteilt. Im besten Falle ähneln sich die Gruppen aber trotzdem, was zum Beispiel Alter, Geschlecht oder Krankheitsdauer der Betroffenen angeht.
  • Verblindet: Eine Gruppe bekommt das Medikament, welches untersucht wird, die andere ein Mittel, welches komplett gleich aussieht, aber keinen Wirkstoff enthält (Placebo). Wenn die Teilnehmenden nicht wissen, zu welcher Gruppe sie gehören, spricht man von einfacher Verblindung. Wissen auch diejenigen, die es verabreichen nicht, wer welches Mittel bekommt, ist die Untersuchung doppelt verblindet. So können am ehesten Placeboeffekte vermieden werden, etwa, dass man weniger Schmerzen hat, allein weil man weiß, dass man ein wirksames Mittel dagegen eingenommen hat. Bei der Auswertung der Ergebnisse wird die Verblindung dann aufgehoben.[4]
  • Kontrolliert: Da die Ergebnisse von der einen mit der anderen Gruppe verglichen werden können, spricht man von kontrolliert.

Mit randomisierten, kontrollierten und verblindeten Studien lassen sie die verlässlichsten Aussagen machen.[5]

Was ist ein Bias?

Der englische Begriff Bias bedeutet Verzerrung. Expertin Eisele-Metzger erklärt, was damit gemeint ist: „Das sind systematische Fehler, die durch die Art und Weise entstehen, wie eine Studie durchgeführt wurde. Und da gibt es ganz verschiedene Ursachen, die zu solchen Verzerrungen führen können.“ Dementsprechend viele Arten von Bias gibt es.[6]

  • Selektionsbias: Wurden in einer Studie die Vergleichsgruppen so gebildet, dass sich besonders viele heftig erkrankte Menschen in einer Gruppe befinden, spricht man vom Selektionsbias. Eisele-Metzger erklärt, wie man dagegen vorgehen kann: „Hier hilft eine sorgfältige Randomisierung, also eine zufällige Zuteilung der Personen auf die Vergleichsgruppen. Wenn man gewisse Faktoren kennt, die wichtig sind, wie Alter oder Geschlecht, achtet man schon bei der Randomisierung auf eine ausgewogene Verteilung. Das wird heutzutage meistens computergestützt gemacht, da kann man spezielle Methoden der Randomisierung anwenden, damit diese Merkmale in beiden Gruppen gleich verteilt sind.“
  • Attrition-Bias: Dieser liegt vor, wenn in der einen Untersuchungsgruppe sehr viele Menschen ausscheiden, also die Therapie nicht weiterführen, weil sie starke Nebenwirkungen hatten. Diese müssen bei der Endauswertung speziell berücksichtigt werden, sonst kommt es zur Verzerrung der Ergebnisse.
  • Reporting-Bias: Davon spricht man, wenn die Studie ihre Methoden oder Ergebnisse nicht sauber darlegt. „Das ist ein ganz wichtiger Aspekt, auf den ich immer bei Studien achte“, betont die Expertin. „Gibt es ein Protokoll, das einsehbar ist und einen Eintrag in einem Studienregister? Wurde vorab festgelegt, wie die Studie durchgeführt werden soll? Wurden die Analysemethoden mittendrin einfach geändert, oder Ergebnisse, die nicht so interessant erschienen, kurzerhand weggelassen?“ Hieran lässt sich ablesen, wie transparent und vollständig die Studie berichtet.[7]

Null-Ergebnisse sind auch sehr wichtig, denn wir möchten ja auch wissen, wenn die Therapie nicht wirkt

Dr. Angelika Eisele-Metzger, Institut für Evidenz in der Medizin des Universitätsklinikums Freiburg

Ein weiter Bias ist der Veröffentlichungsbias. Eisele-Metzger beschreibt, was dabei das Problem ist: „Wir haben einen bedeutsamen Anteil unveröffentlichter Studienergebnisse. Also Studien, die durchgeführt wurden, aber nie oder nur mit ganz starker Verzögerung veröffentlicht wurden. Wenn man dann versucht, alle Studienergebnisse zu einer bestimmten Fragestellung in einer systematischen Übersichtsarbeit zusammenzufassen, findet man nicht alles, was es eigentlich gibt, weil diese Publikationen fehlen.“ So kann ein falscher Blick auf Therapieoptionen entstehen, denn die Nichtveröffentlichung betrifft vor allem sogenannte Null-Ergebnisse, die zum Beispiel keinen Unterschied zwischen verschiedenen Therapiemethoden finden. „Aber Null-Ergebnisse sind auch sehr wichtig, denn wir möchten ja auch wissen, wenn die Therapie nicht wirkt“, betont die Expertin.

Warum schadet Cherry picking?

Cherry picking ist englisch für Kirschen pflücken – und kann im Deutschen grob mit dem Rosinen rauspicken übersetzt werden. Bei Studien heißt das nichts anderes, als dass nur Daten und Ergebnisse hervorgehoben werden, die am ehesten das gewünschte Ergebnis zeigen. Weitere Erkenntnisse oder Studien, die vielleicht sogar das Gegenteil beweisen, werden ignoriert.

Auch wenn nur ein kleiner Teil aller Daten angeschaut wird, der genau das beweist, was man beweisen will, anstatt die Gesamtmenge, hat das einen Cherry-picking-Effekt. Gerd Gigerenzer kennt das Problem: „Sie haben zum Beispiel zehn Aspekte, die Sie sich in der Studie anschauen – ob die Therapie oder das Medikament darauf einen Einfluss hat. Sie finden bei neun keinen Unterschied, nur bei einer. Dann sollte man ja berichten: ‚Bei neun Aspekten gab es keine Veränderung.’ Es passiert aber oft, dass dann nur der eine Aspekt herausgestellt wird, bei dem es eine Veränderung gab.“