Auf Wunsch der Betreuer der Dissertation von Frau Dr. Werner, der
Kollegen Prof. Dr. Sundrum und Prof. Dr. Sobiraj, stelle ich hier in schwarzer Schrift Stellungnahmen
zu meinem "Kommentar zur Dissertation von Frau Dr. Werner" ins Web, wobei ich mir erlaubt habe, zur Verdeutlichung der unterschiedlichen
Standpunkte und Abkürzung des Verfahrens diese Stellungnahmen meinerseits in blauer Schrift zu kommentieren. G.W.Bruhn
Der ungeduldige Leser wird auf den
Kern der nachfolgenden Diskussion
hingewiesen, ohne den die ganze übrige Diskussion gegenstandslos wäre.
Die
Frage der Anwendbarkeit der sog. locf-Methode zur Beschaffung fehlender Erhebungsdaten:
Bei der Erhebung von statistischen Daten über die Auswirkung von
Behandlungen auf eine Menge von Testobjekten entstehen bisweilen Situationen,
in denen die vorgesehene Behandlung an einem einzelnen Testobjekt nicht
fortgeführt werden kann. Dadurch entsteht für die gesamte Erhebung
Datenverlust. Die Streichung des betroffenen Testobjektes aus der Erhebung
bedeutet (unzulässige) Manipulation der vorhandenen Daten durch Streichung
bereits erhobener Daten. Stattdessen wird in der Dissertation die sog. locf-Methode
verwendet, die bei Behandlungsabbruch für ein einzelnes Testobjekt fehlende
weitere Daten ohne Erhebung ergänzt.
Beide Möglichkeiten bedeuten eine Manipulation der durch Erhebung (Messung)
gewonnenen Daten. Die Zulässigkeit der Ergänzung von Erhebungsdaten mit der
locf-Methode wird von den Diskussionsspartnern im Teil
„Zu II“ kontrovers diskutiert.
Sehr geehrter Herr Kollege Bruhn,
vielen Dank, dass Sie sich mit der Dissertation von Frau Dr. Werner auseinandergesetzt haben. Jeder Diskurs und jeder Disput, der zu einem Erkenntnisgewinn beiträgt, ist hilfreich und uns willkommen. So wie es Ihnen frei steht, gegen die gewählte statistische Vorgehensweise einer Dissertation Einwände zu erheben, so selbstverständlich ist es, dass Sie uns Gelegenheit zu einer Gegenposition geben. Dabei kann die Vorgehens- und Argumentationsweise, mit der Sie die Stellungnahme füllen, nicht ausgespart werden.
Der Aufhänger für Ihre Einwände bildet ein Zitat aus den Mitteilungen der GGTM, wonach „Frau Werner…mit ihren Ergebnissen die Wirksamkeit der Homöopathie“ belegt. Diese Aussage wurde in dieser Form von Frau Dr. Werner nie getätigt und auch nicht gegenüber der GGTM autorisiert. Einwände an einen nicht geäußerten Satz zu koppeln, ist unredlich, weil es fälschlicherweise einen Zusammenhang suggeriert. Während es in der Dissertation von Frau Werner explizit nicht um eine Grundsatzdebatte um die Wirksamkeit der Homöopathie geht, erwecken Sie Ihrerseits den Eindruck, dass sich Ihre Motivation für Ihre Einwände vorrangig aus grundlegenden Überzeugungen speist. Wie sonst ist Ihre Behauptung zu erklären: „Jedes Ergebnis über die Wirksamkeit der Homöopathie – allgemein oder in irgendeinem Spezialfall – steht im Widerspruch zu den bekannten Aussagen der Naturwissenschaft.“
Frau Dr. Werner hat Ihren Preis von der GGTM lt. zitierter GGTM-Mitteilung aus dem genannten Grunde erhalten und angenomen. Wenn Frau Dr. Werner mit dieser Begründung nicht einverstanden gewesen wäre, hätte sie den Preis ablehnen oder eine Korrektur der GGTM-Mitteilung verlangen müssen.
Überdies hat
Frau Dr. Werner selbst eine
„Kurzfassung“ ihrer Dissertation
veröffentlicht, in der es heißt:
„Ziel des vorliegenden Forschungsprojektes war
es, in einer Klinischen Kontrollstudie die
Wirksamkeit des homöopathischen Behandlungsverfahrens in Anwendung der klassischen
Homöopathie im Vergleich zum chemotherapeutischen Behandlungsverfahren und zu einem
Placebo bei der Behandlung akuter katarrhalischer Eutererkrankungen zu prüfen.“
Weiter gibt Frau Dr. Werner auf S.27 ihrer Dissertation als ihre zentrale Arbeitshypothese 2
an:
„Das
homöopathische und das chemotherapeutische Behandlungsverfahren sind der
Anwendung eines Placebos bei der vollständigen Heilung eines erkrankten
Euterviertels deutlich überlegen.“
Offenbar geht es Frau Dr. Werner doch um die grundsätzliche Frage, ob Homöopathika eine über den Placebo-Effekt hinausgehende Wirkung haben. Denn: Eine positive Studie dafür würde reichen.
Pharmakologie, Human- und Tiermedizin bedienen sich einer Vielzahl von Arzneimitteln in Konzentrationen, wie sie auch in der Homöopathie zum Einsatz kommen. Ein absoluter Widerspruch zur Naturwissenschaft ist konstruiert und entbehrt einer wissenschaftlich kohärenten und validen Argumentation. Anders ist es im Fall von Hochpotenzen. Rein rechnerisch beinhalten homöopathische Mittel erst ab der Potenz D23 (Lohschmidt´sche Zahl) keine Bestandteile der Urtinktur mehr. In der vorliegenden Arbeit wurden größtenteils Tief und Mittelpotenzen der Homöopathika eingesetzt, so dass davon ausgegangen werden kann, dass die Urtinktur, wenn auch in stark verdünnter Form, in den eingesetzten Mitteln vorhanden ist und Wirkungen (welcher Art auch immer) keineswegs im Widerspruch zu bekannten Aussagen der Naturwissenschaft stehen.
Natürlich wird die Möglichkeit herkömmlicher chemischer Wirkungen von niedrigen Potenzen von keinem Naturwissenschaftler bestritten.
Aber schon die in der Homöopathie behauptete allgemeine Wirksamkeitssteigerung eines Homöopathikums bei Verdünnung zur nächsthöheren Potenz (unter Schütteln und ohne Schütteln nicht!) dürfte kaum mit den Gesetzen der Chemie in Einklang zu bringen sein. Jeder Homöopath dürfte von dieser Merkwürdigkeit schon gehört haben und wissen, dass die Anwendung von homöopathischen Mitteln aus diesen Gründen nicht mit der Naturwissenschaft vereinbar ist. Derart erlangte Ergebnisse sind daher naturwissenschaftlich grundsätzlich fragwürdig, will sagen:
Frau Dr. Werner hat nach eigenen Angaben DHU-Homöopathika im Bereich D6 – C30 und C200 verwendet. C30 entspricht D60 und C200 ist D400, beide liegen somit weit über der theoretischen Wirksamkeitsgrenze bei D23. Das oral verabreichte Homöopathikum wird in der Kuh dann nochmal um einige Zehnerpotenzen verdünnt! Ca. um 1:500.000. Da bleibt für das erkrankte Kuheuter selbst bei höheren Tiefpotenzen kaum noch ein Molekül der Urtinktur übrig. Leider werden keine chemischen Angaben für die eingesetzten Homöopathika gemacht. Sonst könnte man auch die möglichen chemischen Wirkungen der verwendeten Tiefpotenzen noch diskutieren.
Zitat:
„Alle Homöopathika waren von der Deutschen
Homöopathie-Union (DHU) hergestellt worden. Die Mittel wurden oral in Form von
in Wasser gelösten Globuli mit Hilfe einer Einmalspritze verabreicht. Pro
Verabreichung wurden 10 Globuli eingegeben, die sich für jede Gabe abgezählt in
Reagenzröhrchen befanden. Hierin erfolgte auch die Auflösung in Wasser. Bei der
Behandlung der akuten katarrhalischen Mastitiden kamen vorrangig Tiefpotenzen
(D 6, D 8, D 12), vereinzelt auch Mittelpotenzen (C 30) und nur selten Hochpotenzen (C 200) zum Einsatz.“
Warum wurden Mittel- und Hochpotenzen denn überhaupt eingesetzt (Überschreitung der Loschmidt-Grenze), wenn sich doch alles an den Ergebnissen der Naturwissenschaften orientiert?
Weiter heißt es in Ihren
Ausführungen: „Veröffentlichungen, dazu zählen auch Dissertationen (zu
deutsch: Streitschriften), sind dazu da, von der gesamten wissenschaftlichen
Gemeinschaft auf Stichhaltigkeit überprüft zu werden, nicht nur von den
Fachkollegen im engeren Sinne“ und „Fachleute anderer Bereiche haben
durchaus eine wissenschaftliche Kontrollfunktion“. Wir anerkennen die
Bedeutung, welche der kritischen Prüfung durch Experten aus anderen Bereichen
beizumessen ist. Wir freuen uns, wenn sich andere Wissenschaftler die Mühe
machen und uns auf mögliche Unzulänglichkeiten, sei es bei der
Versuchskonzeption, der statistischen Auswertung oder bei den
Schlussfolgerungen hinweisen; denn dies ist eine unermessliche Quelle des
Erkenntnisfortschrittes. Im Bewusstsein der eigenen Begrenzungen haben wir uns
bemüht, bereits bei der Versuchskonzeption externe wissenschaftliche Fachkompetenz
einzubeziehen. Beantragt und bewilligt wurden Finanzmittel für die Etablierung
eines Projektrates (siehe hierzu Seite 28 der Dissertation), der sich aus
Fachvertretern der Allopathie und der Homöopathie sowie der Milchhygiene zusammensetzte
und im Verlauf der Studie dreimal tagte.
Darf man die Namen der hinzugezogenen Fachleute erfahren? Auch
Jacques Benveniste
hatte sich solcher Komitees bedient und konnte seine sensationellen Ergebnisse
vor anderen Komitees schließlich nicht mehr reproduzieren.
Weiterhin wurde die Auswertung der Daten nach Beendigung des praktischen Studienteils in Zusammenarbeit mit einem Diplom-Statistiker (Herrn Rainer Lüdtke von der Karl und Veronica Carstens Stiftung, Essen) vorgenommen, um den hohen Anforderungen einer Wirksamkeitsstudie Rechnung zu tragen und „seitens der Mathematik bei Anwendungen auf die Einhaltung der vorgegebenen „Spielregeln“ zu achten“.
Darüber, ob Herr Dipl.-Stat. Lüdtke die in ihn hier gesetzten Erwartungen wirklich erfüllt hat, kann der Leser sich an Hand von Herrn Lüdtkes "Bemerkungen" selbst eine Meinung bilden. Ich verweise hier auf meine weiter unten und in meinem früheren Kommentaren geäußerte Kritik an der Beschaffung fehlender Daten mit der locf-Methode unter den Gegebenheiten der vorliegenden Studie.
Rückblickend erachten wir die Etablierung des Projektrates für sehr hilfreich und als ein zukunftsweisendes Verfahren, insbesondere bei strittigen Themenstellungen. In diesem Zusammenhang sei noch darauf hingewiesen, dass am Anfang der Untersuchungen die Frage im Vordergrund stand, ob und inwieweit die gesetzlich verankerte Präferenz hinsichtlich des Einsatzes von Homöopathika in der ökologischen Tierhaltung (EWG Nr. 1804/1999) gerechtfertigt ist. Wir haben versucht, uns dieser Frage möglichst unvoreingenommen zu widmen und mittels des Projektrates die eigene Neutralität strukturell zu festigen. Wir weisen deshalb jedweden offen oder unterschwellig geäußerten Verdacht hinsichtlich einer intentionalen Vorgehensweise zurück.
Bei allem Respekt vor der Disziplin der Mathematik erlauben wir uns ferner den Hinweis, dass der
Mathematik trotz der zweifellos sehr wichtigen und relevanten Aufgaben nicht
der alleinige Anspruch zuerkannt werden kann, über die Plausibilität und
Kohärenz von naturwissenschaftlichen Versuchen zu entscheiden.
Danke. Statistik ist nun mal ein Teilgebiet der Mathematik. Vielleicht haben Sie keine
rechte Vorstellung davon, dass Mathematiker geradezu darauf trainiert werden, auch kompliziertere Sachverhalte
in scheinbar abgelegenen Anwendungsgebieten zu analysieren. Sie können gern mal einen Blick über den Zaun werfen:
Etwa: Electrodynamics
oder Myron W. Evans' Grand Covariant Unified Field Theory.
Falsche Berechnungen führen zu falschen Ergebnissen und sind deshalb zu korrigieren. Hier geht es aber nicht um falsche Berechnungen, sondern um die Frage nach der richtigen statistischen Methode. Über die richtige Methodenwahl lässt sich streiten.
Besser gesagt:
Es geht um die Richtigkeit der verwendeten statistischen Methode,
nicht um die Wahl zwischen unterschiedlichen Methoden.
Dabei ist die Tatsache nicht neu, dass es zwischen den Statistikern sehr unterschiedliche Auffassungen gibt. Sie selbst haben in einer ersten Mail gegenüber Frau Dr. Werner ein statistisches Verfahren vorgeschlagen, und nach der Beratschlagung mit einem Kollegen davon wieder Abstand genommen. Von Eindeutigkeit bei der Anwendung von statistischen Methoden kann also keine Rede sein. Zu der bei der Auswertung angewandten Statistik äußern wir uns weiter unten.
Das ist nicht ganz korrekt: Ich habe darüber nachgedacht, ob man den vorliegenden Verfahrensfehler durch Reduktion der Daten heilen könnte. Das aber ist, wie sich zeigte, nicht der Fall, weil auf eine unzulässige Manipulation des vorliegenden Datenmaterials hinauslaufend.
Wie von Ihnen richtig zitiert, heißt es den Arbeitshypothesen: „Das homöopathische und das chemotherapeutische Behandlungsverfahren sind der Anwendung eines Placebos bei der vollständigen Heilung eines erkrankten Euterviertels deutlich überlegen.“ Wenn Sie diese Hypothese und die Dissertation richtig gelesen hätten, hätte Ihnen auffallen können, dass es nicht Ziel der Arbeit war, die Wirkungsweise einzelner homöopathischer Arzneimittel zu überprüfen, sondern die Anwendung und Wirksamkeit des homöopathischen Behandlungsverfahrens im Sinne der klassischen Homöopathie im Fall der akuten katarrhalischen Mastitis des Rindes.
Habe ich irgendwo etwas über die „Wirkungsweise einzelner homöopathischer Arzneimittel“ gesagt?
Das angewendete homöopathische Behandlungsverfahren wird in der Arbeit sehr detailliert beschrieben (Kap. 3.6.1 und 3.7.1) und setzt sich aus mehreren Arbeitsschritten zusammen.
Daran habe ich keinen Anstoß genommen.
Die Darstellung und Interpretation der erzielten Ergebnisse sind sehr eng an das Verfahren sowie die Ein- und Ausschlusskriterien der Versuchstiere angelehnt. Eine Verallgemeinerung der Ergebnisse hinsichtlich einer generellen Wirksamkeit von Homöopathika verbietet sich. Jeder, der in diese Richtung argumentiert, setzt sich dem Vorwurf intentionalen Agierens aus.
Ich habe oben begründet, warum ein Einzelergebnis der angestrebten Art
von grundsätzlicher Bedeutung wäre. Deshalb weise ich Ihre Unterstellung
von Intentionalismus schlicht zurück. Ich verweise erneut auf
Frau Dr. Werners zentrale Arbeitshypothese 2:
„Das
homöopathische und das chemotherapeutische Behandlungsverfahren sind der
Anwendung eines Placebos bei der vollständigen Heilung eines erkrankten
Euterviertels deutlich überlegen.“
Was soll der Versuch, die Bedeutung von Frau Dr. Werners Ergebnis (wenn zutreffend) herunterzuspielen und zu relativieren?
Frau Dr. Werner geht es um die Frage, ob Homöopathika eine über den Placebo-Effekt hinausgehende
Wirkung haben oder nicht, meinetwegen in einem Einzelfall.
Eine solche Studie mit positivem Ergebnis gewänne sofort grundsätzliche Bedeutung.
„Der Behandlungsgruppen-)Wechsel erfolgte somit
symptomabhängig.“
Der von Ihnen kritisierte Behandlungsgruppenwechsel erfolgte im Sinne eines Therapieversagens symptomabhängig.
Die Kriterien, die zu einem Wechsel führten, waren von vorneherein in der
Methodik festgelegt und damit transparent verankert.
Das hilft nicht! Der Fehler ist, dass diese symptomabhängigen Behandlungswechsel an 26,5 % der Objekte (S. 89 der Dissertation) das Endergebnis verfälschen, wie im folgenden gezeigt wird:
Auf S.36 der Dissertation finden sich die „Spielregeln“ für Gruppenwechsler zwischen den Behandlungsgruppen H, C und K:
1) Kriterium (1) für den Wechsel H → C: „Ein Wechsel der homöopathisch behandelten Fälle in die Chemotherapie-Gruppe (Gruppenwechsler Homöopathie, GWH) war immer dann angezeigt, wenn mit den oben genannten Abweichungen der Lokalsymptome Störungen des Allgemeinbefindens einhergingen.“
2) Kriterium (2) für den Wechsel C → H: „Der Wechsel vom chemotherapeutischen zum homöopathischen Behandlungsverfahren (Gruppenwechsler Chemotherapie, GWC) wurde nur bei nachweislich negativem Keimgehalt in der VAG vom Erkrankungstag vollzogen, kombiniert mit einer Nicht-Besserung der Symptome innerhalb der ersten Woche.“
3) Kriterium (3) für den Wechsel K → C: „Falls nach fünftägiger Placebo-Behandlung keine Besserung, je 50% per random.“ s. Tabelle 4.8 auf S. 47.
4) Kriterium (4) für den Wechsel K → H: „Falls nach fünftägiger Placebo-Behandlung keine Besserung, je 50% per random.“ s. Tabelle 4.8 auf S. 47.
5) Wechsel in die Kontrollgruppe K wurden nicht vorgenommen.
Die Bedingungen (1) - (4) sind symptomabhängig. Ein Gruppenwechsler hat
am Ende (mindestens) zwei Behandlungsarten erhalten. Damit ist für die
Endabrechnung zunächst unklar, welcher Behandlungsart der jeweilige Endzustand
zuzurechnen ist. In der Dissertation wird dieses Problem mit der sog.
locf-Methode aufgelöst:
Es wird so getan, als sei der bei Therapiewechsel erreichte Zwischenzustand der
Endzustand für die Endabrechnung. Ohne Therapiewechsel
würde es dagegen voraussichtlich zu einer Katastrophe kommen.
Der Verfahrensfehler besteht darin, dass der eigentlich zu verwendende katastrophale
Endzustand durch den Zwischenzustand erheblich unterschätzt in die Endabrechnung eingeht.
Die Abbruchsbedngungen sind in 1) − 5) oben wiedergegeben.
Das ist zweifellos eine äußerst fragwürdige Methode der Ergänzung der unvollständigen Erhebungsdaten
mit de facto nicht erhobenen Daten.
Man erkennt dies besonders gut, wenn man mit symptom-unabhängigen
Therapieabbrüchen vergleicht: Beispiele der letztgenannten Art sind bei menschlichen Patienten
Therapieabbrüche infolge persönlicher (therapieunabhängiger) Umstände, z.B. wegen Unfall, Desinteresse o.ä..
Anders als bei symptombedingten Abbrüchen ist hier eine Fortschreibung des Abbruchzustandes
durchaus sinnvoll.
Man beachte auch, dass die Gruppen, anders als durch die Kriterien (1) − (4), in gleicher Weise betroffen sind,
statistische Fehler durch Asymmetrien der Abbruchbedingungen nicht zu erwarten sind.
Der Einfluss der durch die Kriterien (1) − (5) verursachten Fehler ist umso größer,
je mehr Wechsler davon betroffen sind. Könnte man hoffen, dass die Fehler der einzelnen Gruppen sich
per saldo statistisch kompensieren?
Die Anzahl der Wechsler folgt aus der Art der Kriterien (1) - (5),
diese aber sind durch medizinische Gründe bestimmt und nicht durch die (mathematische) Forderung,
dass die durch die Gruppenwechsler verursachten Endfehler sich kompensieren sollten.
Wegen dieser für den vorliegenden Fall beschriebenen Probleme wird die locf-Methode in der Statistik-Fachliteratur
als fragwürdig eingestuft:
K. Meyer und J. Windeler, Institut für Medizinische Biometrie und
Informatik der Ruprecht-Karls-Universität Heidelberg, schreiben zu der Frage
„Ist 'Last
observation carried forward' sinnvoll?“:
„ . . . Insbesondere bei stetigen Zielgrößen wird häufig nach der `last
observation carried forward' (LOCF) Methode vorgegangen, d.h. der letzte von
einem Patienten vorliegende Wert wird für die Endauswertung verwendet. Eine
Begründung für dieses Vorgehen wird in aller Regel nicht gegeben, und die
möglichen Konsequenzen sind bisher nur sehr unzureichend untersucht.“
Ihre Schlussfolgerung, „Das heißt doch wohl, dass, wenn die Homöopathie eine erhebliche Zustandsverschlechterung bewirkt hatte, durch Wechsel zur Chemotherapie nachgeholfen wurde.“, enthält falsche Aussagen und die Unterstellung einer Manipulation.
Nicht unbedingt: Schlicht die Unterstellung einer Fehlbeurteilung der
mathematischen Möglichkeiten der locf-Methode in der Dissertation (s.o.) tut es auch.
Noch einmal:
Durch die vorgenommenen
Behandlungswechsel wird das Endergebnis (Tag 56) irreparabel verfälscht. Denn
diese Wechsel in der Behandlungsart an 26,5 % der Objekte, die das Endergebnis
sehr wohl erheblich beeinflussen können, werden einfach unterschätzt.
Dass von der Anwendung eines homöopathischen Mittels eine negative Wirkung (kausale Zusammenhänge) ausgeht, kann bei einer Zustandsverschlechterung weder bewiesen noch ausgeschlossen werden. Interessant ist aber, dass Sie hier der Homöopathie eine negative Wirkung unterstellen, wo Sie doch diesen Mitteln (siehe oben) jegliche Wirkung absprechen. Was gilt denn nun, Wirkung oder keine Wirkung?
Einfache Antwort:
Statistisch gibt es Unterschiede der Wirksamkeit der drei
Therapiearten, die man hier herausfinden will. Wenn man aber, bildlich
gesprochen, mitten im Rennen die Pferde wechselt, kann man am Ende nicht sagen,
wer wie im Rennen abgeschnitten hat. Will sagen: Ob Frau Dr. Werners
Arbeitshypothese 2 zutrifft oder nicht, bleibt durch ihre Arbeit leider ungeklärt.
Entgegen Ihren Mutmaßungen beschränkte sich der Behandlungsgruppenwechsel nicht auf die Homöopathie-Gruppe, sondern wurde ebenfalls bei Auftreten der festgelegten Kriterien in den beiden anderen Behandlungsgruppen (Chemotherapie und Placebo) durchgeführt. Ihre Unterstellung, dass den homöopathisch behandelten Tieren, die eine Zustandsverschlechterung im Laufe der Therapie zeigten, durch den Behandlungsgruppenwechsel zur Symptombesserung „verholfen“ wurde, wird allein durch die angewandte Auwertungsmethode entkräftet.
Ich habe von S.36 der Dissertation korrekt zitiert:
„Ein Wechsel der homöopathisch behandelten Fälle in die
Chemotherapie-Gruppe (Gruppenwechsler Homöopathie, GWH) war immer dann
angezeigt, wenn mit den oben genannten Abweichungen der Lokalsymptome Störungen
des Allgemeinbefindens einhergingen. Des Weiteren wurde ein Wechsel zur
chemotherapeutischen Behandlung nach mehrmaligem Mittelwechsel innerhalb der
homöopathischen Therapiegruppe, bedingt durch mehrfache Änderungen der
Symptome, vorgenommen. Der Wechsel vom chemotherapeutischen zum homöopathischen
Behandlungsverfahren (Gruppenwechsler Chemotherapie, GWC) wurde nur bei
nachweislich negativem Keimgehalt in der VAG vom Erkrankungstag vollzogen,
kombiniert mit einer Nicht-Besserung der Symptome innerhalb der ersten
Woche.“
Gesagt wird nur, dass die vorgenommenen Behandlungswechsel das Endergebnis
unbrauchbar machen. Wenn Sie ein
brauchbares Ergebnis haben wollen, müssen Sie dasselbe Verfahren ohne Behandlungswechsel
noch einmal durchführen.
Ich sehe natürlich auch, dass eine derart rigide Gruppeneinteilung durch Zustandsverschlechterung
der Tiere u.U. nicht aufrecht erhalten werden kann. Dann bleibt nichts übrig,
als die Erhebung ohne Ergebnis abzubrechen. Wobei eine geringfügige Anzahl
von Therapiewechslern u.U. noch zu tolerieren wäre. Aber nicht eine Größenordnung von 26,5%.
Es gibt keine gesicherte statistische Methode, unter den vorliegenden Bedingungen fehlende Daten für 26,5 % der Untersuchungsobjekte per Extrapolation doch noch zu beschaffen. Auch wenn man das gern anders hätte. Was man erhält, wenn man sich, wie in der Dissertation, darüber hinwegsetzt, ist kein statistisch gesichertes Ergebnis, sondern ein Artefakt.
Der statistischen Auswertung der Daten liegt das Intention-to-treat-(ITT)-Prinzip zugrunde („Als Auswertungspopulation dienten alle in die Studie eingeschlossenen Kühe, unabhängig davon, ob sie mit der zugeteilten Therapie bis zum Ende des Beobachtungszeitraumes behandelt wurden oder nicht“; siehe Kap. 3.12). Dieses wird in der Literatur als „das primäre Auswertungsverfahren für klinische Studien“ bezeichnet (Meyer, 1999) und stellt „das beste verfügbare Verfahren zur Vermeidung einer Auswertungsbias und zur Abschätzung von Therapieeffekten“ dar (Kleist, 2009). Neben der Vergleichbarkeit der Patientengruppen bleibt auch die Teststärke erhalten, da alle Patienten in der Auswertung berücksichtigt werden.
Die Quelle [Meyer, 1999] gibt die Autorin nicht an. Wie oben begründet: Die ITT-Methode ist nichts als ein "Notbehelf", um auch dann zu Ergebnissen zu kommen, wo man wegen Datenverlust besser abbrechen sollte. Griffige Bezeichnungen (ITT) täuschen hier eine statistische Sicherheit vor, die de facto nicht zu haben ist. Die ITT-Methode lässt sich vertreten in Anwendungsfällen mit gruppenneutralen Abbruchkriterien. Die ITT-Methode ist dagegen äußerst bedenklich bei den in der Dissertation verwendeten symptomabhängigen Abbruchkriterien (1) − (5) auf.
Würde eine Auswertung unter Ausschluss von Therapieabbrechern (hier: Gruppenwechsler) erfolgen, würde die einem Bias unterliegen, der oft zu Gunsten der Testbehandlung ausfällt (Kleist, 2009).
Gewiss. Ausschluss von Therapie-Abbrechern wäre hier eine unzulässige Datenmanipulation. Aber auch das Ergänzen der Daten mit de facto nicht erhobenen Daten ist so zu bewerten.
Durch die Anwendung des ITT-Prinzips werden die Behandlungseffekte also eher unterschätzt.
Wie oben begründet: Was hier tatsächlich unterschätzt und ignoriert wird, ist der bei Therapie-Fortsetzung zu erwartende katastrophale Endzustand, der (im vorliegenden Einzelfall) die Wirksamkeit der angewendeten Therapie tatsächlich charakterisiert. Das gerade in 26,5 % der Fälle, gerade in den Fällen, welche vermutlich die meiste Information enthalten.
„Gruppenwechsler wurden im Sinne eines Therapieversagens dabei nach der last observation carried forward (locf) Methode ausgewertet, d.h. sie wurden mit dem letzten verfügbaren Befund vor ihrem Gruppenwechsel bis zum Ende der Untersuchung mitgeführt.“ An einem Beispiel verdeutlicht: Kuh X ist durch die Randomisation in die Gruppe der Chemotherapie gefallen und wird entsprechend dem Studienprotokoll beprobt und behandelt. Nach einer Woche (Untersuchungstag 7) hat sich der Krankheitszustand nicht gebessert und der Laborbefund der Milchprobe des erkrankten Euterviertels weist keinen Keimgehalt aus. Laut Protokoll wird dieses Tier als Therapieversager der Chemotherapie-Gruppe identifiziert und ab dem Tag 8 mit Homöopathika weiter behandelt. In die Auswertung geht diese Kuh für alle, dem Tag 7 folgenden Untersuchungszeitpunkte mit den Werten des Tages 7 (und damit mit dem letzten Wert in der Chemotherapie-Gruppe) entsprechend der locf-Methode ein. Es spielt für die angewendete Auswertungsmethode keine Rolle, welche Behandlung sich an den Ausschlusszeitpunkt anschließt, da der Gruppenwechsel einem Therapieversagen in der randomisierten Behandlungsgruppe entspricht und im Sinne des ITT auch dementsprechend ausgewertet wird. Damit bleiben in der Auswertung die von Ihnen geforderten „mathematisch zulässigen festen Behandlungsgruppen“ bestehen, ohne die Therapieversager aus der Auswertung nehmen zu müssen. Somit wird einer „Datenmanipulation und Selektion“ bestmöglich entgegengewirkt, die allerdings bei einer Entfernung der Therapieversager aus der Auswertung stattgefunden hätte!
Die Mängel der ITT-Methode für den Fall symptomabhängiger Abbruchkriterien wurden oben angegeben. Beide Möglichkeiten, Ausschluss von erhobenen Daten und Hinzufügen von de facto nicht erhobenen Daten, bedeuten in gleicher Weise eine unzulässige Veränderung an dem erhobenen Datenmaterial.
Als problematisch wird die
locf-Methode dann beschrieben, wenn Studienabbrecher aus den verschiedenen
Behandlungsgruppen aufgrund unterschiedlicher Gründe (starke Nebenwirkungen,
aber gutes Ansprechen auf die Therapie vs. Zustandsverschlechterung)
ausscheiden, wodurch ein nicht unerheblicher Bias provoziert würde. Da dies in
der vorliegenden Arbeit nicht der Fall ist und die Drop-Outs vergleichbar sind
(nur Stagnation bzw.
Zustandsverschlechterung in allen 3 Gruppen), wurde die locf-Methode als gute
Analysemethode angesehen, die auf jeden Fall besser ist, als Therapieversager
aus der Auswertung einfach auszuschließen.
Dass „die möglichen
Konsequenzen nur sehr unzureichend untersucht sind“, kann nicht der
vorliegenden Arbeit angelastet werden, zumal nach Meyer (1999) „keine Auswertungsstrategie
identifiziert werden kann, die unter allen betrachteten Situationen, d.h.
allen Kombinationen von Dropoutmechanismen, Verläufen und Dropoutraten sowohl
bezüglich das Fehlers 1. Art als auch bezüglich der Power ideal wäre“.
Zusammenfassend stellen wir
fest, dass ein von Ihnen angemahnter „Verfahrensfehler“, der dazu
geeignet wäre, die Ergebnisse der Studie in Ihren Augen als „wissenschaftlich
irrelevant“ und als „Artefakt“ abtun zu können, nicht existent ist.
Ja, wie schon oben gesagt:
Es gibt keine
gesicherte statistische Methode, fehlende Daten einer statistischen Erhebung
per Extrapolation doch zu beschaffen, und das hätte die Verfasserin durchaus
wissen oder bei Fachleuten erfragen können. Was man erhält, wenn man
sich, wie die Verfasserin, darüber hinweg setzt, ist kein statistisch
gesichertes Ergebnis, sondern ein Artefakt. Die Autorin hat sich damit,
vorsichtig gesagt, auf sehr dünnes Eis begeben. Soviel zum „Verfahrensfehler“.
Ihre Kritik läuft ins Leere, da Sie wesentliche Aspekte der Arbeit unberücksichtigt lässt und sich auf Aussagen stützt, die in der Dissertation von Frau Dr. Werner gar nicht gemacht wurden. Sie ist zudem inkonsistent und intentional. Ihre Kritik ist nicht konstruktiv, weil sie nicht nur unzulässige Pauschalierungen enthält, sondern auch jeglichen Hinweis vermissen lässt, wie denn in dem konkreten Fall optional anders hätte vorgegangen werden können oder müssen, um die Ergebnisse statistisch auszuwerten.
Wie Ihre obigen
Ausführungen zur locf- und ITT-Methode selbst zeigen, laufe ich mit meiner Kritik
deren Anwendung keineswegs „ins Leere“ usw. , sondern habe just den
kritischen Punkt der Dissertation aufgezeigt. Meine Kritik ist
nicht konstruktiv? Kritik muss nicht unbedingt konstruktiv sein, aber die
Aufdeckung einer Schwachstelle ist bereits ein konstruktiver Beitrag.
Mein Rat
lautet: Finger weg von der locf-Methode, wenn nicht sehr gute Gründe für die
Anwendbarkeit dieser Methode vorliegen.
Wenn es Ihnen wirklich um eine Korrekturfunktion geht, wie Sie es am Anfang Ihres Einwandes hervorheben, müssten Sie den Nachweis erbringen, dass Sie ihre statistische Expertise, die zu beurteilen uns nicht zusteht, auch und vor allem auf die zahlreichen fehlgeleiteten Studien im Zusammenhang mit der Wirksamkeitsprüfung von Allopathika richten. Solange Sie sich einseitig auf Arbeiten im Zusammenhang mit homöopathischen Mitteln beschränken, laufen Sie Gefahr, sich dem Vorwurf der Einseitigkeit auszusetzen.
Danke für die Anregung. Dass auch woanders Fehler gemacht werden, die ich nicht moniert habe, ist doch nun wirklich kein gutes Argument gegen meine Kritik im vorliegenden Fall. Die Welt der Wissenschaft ist voll von allerlei Fehlern. Man kann nur hoffen, dass eine Mehrheit davon entdeckt wird, bevor sie die Basis von darauf aufbauenden Folgearbeiten werden. Ich habe auf meiner Website allerlei zusammengetragen, was man beim Lesen an Merkwürdigkeiten im Web finden kann. Der Zufall und mein Interesse an dem Thema Homöopathie führten mich gerade auf die besprochene Arbeit. Andere Wissenschaftler werden hoffentlich andere Arbeiten genau lesen und gegebenenfalls ihre Monita mit guten Gründen belegen. GWB.
Mit freundlichen Grüßen
Prof. Dr. Albert Sundrum,
Prof. Dr. Axel Sobiraj
Kleist, P. (2009): Das Intention-to-Treat-Prinzip. Schweiz Med Forum 9(25): 450-453.
Meyer, K. (1999):
Intention-to-treat: Umgang mit fehlenden Werten bei sich fortlaufend verschlechternden
Zielgrößen in Therapiestudien.
http://archiv.ub.uniheidelberg.de/volltextserver/volltexte/1999/273/pdf/273_1.pdf
Antwort des Servers: Die von Ihnen eingegebene Internetadresse
archiv.ub.uniheidelberg.de konnte nicht gefunden werden.
Dissertation
Zu den kommentierten Anmerkungen von R. Lüdtke
Zum Kommentar von G.W.Bruhn
Zur Homöopathie-Seite