
(Quelle: https://twitter.com/RevBayes/status/506577193804111872/photo/1)
Conversion Rate Optimization/27. Mai 2024 -Aktualisiert am 3. Februar 2025/6 Min. Lesezeit
Im Bereich der Statistik ist die Bestimmung der Signifikanz von zentraler Bedeutung, um aussagekräftige Schlussfolgerungen aus Daten zu ziehen und sicherzustellen, dass es sich bei den Daten um keinen Zufall handelt. Ganz gleich, ob man medizinische Studien, Marktforschung, sozialwissenschaftliche Experimente oder AB-Tests auf Websites analysiert, das Verständnis der Signifikanz seiner Ergebnisse ist unerlässlich. Zwei bekannte Methoden zur Berechnung der Signifikanz sind der frequentistische und der Bayes’sche Ansatz. Im folgenden Beitrag wollen wir uns mit den Grundsätzen und Anwendungen beider Ansätze befassen.
Der frequentistische Ansatz für Signifikanztests beruht auf der Idee der wiederholten Stichproben. Er bewertet die Wahrscheinlichkeit der Beobachtung der Daten oder extremerer Ergebnisse unter der Annahme, dass die Nullhypothese wahr ist. Die Nullhypothese besagt in der Regel, dass es keinen Effekt oder keinen Unterschied zwischen den Gruppen gibt.
In der frequentistischen Statistik ist der p-Wert eine wichtige Kennzahl. Er gibt die Wahrscheinlichkeit an, dass die Ergebnisse so extrem sind wie die beobachteten Daten, vorausgesetzt, die Nullhypothese ist wahr. Ein kleinerer p-Wert deutet auf eine stärkere Evidenz gegen die Nullhypothese hin, d. h. es ist unwahrscheinlich, dass die beobachteten Ergebnisse allein durch Zufall entstanden sind.
Frequentistische Methoden verwenden häufig Konfidenzintervalle, um den Bereich zu schätzen, in dem der wahre Populationsparameter wahrscheinlich liegt. Diese Intervalle stellen ein Maß für die Unsicherheit dar, die den aus den Stichprobendaten abgeleiteten Punktschätzer umgibt.
Frequentistische Hypothesentests beinhalten den Vergleich der beobachteten Daten mit dem, was unter der Nullhypothese zu erwarten wäre. Zu den gängigen Tests gehören t-Tests, Chi-Quadrat-Tests und ANOVA, die jeweils auf verschiedene Arten von Daten und Forschungsfragen zugeschnitten sind.
Die Bayes’sche Statistik nähert sich der Signifikanzprüfung aus einem anderen Blickwinkel und legt den Schwerpunkt auf die Aktualisierung von Überzeugungen auf der Grundlage der beobachteten Evidenz. Im Gegensatz zu den frequentistischen Methoden, die sich auf die langfristige Häufigkeit von Ereignissen konzentrieren, bezieht die Bayes’sche Analyse Vorwissen ein und aktualisiert es mit neuen Daten, um Posterior-Wahrscheinlichkeiten zu erhalten.
Bei der Bayes’schen Inferenz geht es um drei Kernelemente: den Prior, der die bestehenden Überzeugungen über die Parameter vor der Beobachtung der Daten darstellt; die Likelihood, die die Wahrscheinlichkeit der beobachteten Daten unter Berücksichtigung der Parameter quantifiziert; und den Posterior, der den Prior und die Likelihood kombiniert, um aktualisierte Überzeugungen über die Parameter zu erhalten.
Anstelle von p-Werten werden bei der Bayes’schen Analyse häufig Bayes-Faktoren verwendet. Diese Metriken quantifizieren die Evidenz, die die Daten für eine Hypothese im Vergleich zu einer anderen liefern, wobei sowohl die Wahrscheinlichkeit der Daten unter jeder Hypothese als auch vorherige Überzeugungen über ihre Plausibilität berücksichtigt werden.
Die Bayes’sche Analyse stützt sich häufig auf MCMC-Techniken, um Stichproben aus der posterioren Verteilung zu ziehen. MCMC-Algorithmen wie Gibbs-Sampling und Metropolis-Hastings ermöglichen eine effiziente Erkundung hochdimensionaler Parameterräume, was Schätzungen und Schlussfolgerungen in komplexen Modellen ermöglicht.
Sowohl der frequentistische als auch der Bayes’sche Ansatz haben ihre Stärken und Grenzen, und die Wahl zwischen ihnen hängt oft von der Art der Daten, der Forschungsfrage und den Präferenzen des Forschers ab. Einige Statistiker und Wissenschaftler sind optimistisch, dass Bayes’sche Methoden die Zuverlässigkeit der Forschung verbessern können, indem sie es den Wissenschaftlern ermöglichen, Arbeiten, die mit dem eher traditionellen oder „klassischen“ Ansatz der frequentistischen Statistik, durchgeführt wurden, gegenzuprüfen. Die beiden Methoden nähern sich denselben Problemen aus unterschiedlichen Blickwinkeln.
Das Prinzip der frequentistischen Technik besteht darin, die Wahrscheinlichkeit auf Daten anzuwenden. Wenn man zum Beispiel vermutet, dass jemand eine gewichtete Münze hat, und man beobachtet, dass sie in neun von zehn Fällen Kopf zeigt, würde ein Frequentist die Wahrscheinlichkeit berechnen, dass er mit einer ungewichteten Münze ein solches Ergebnis erhält. Die Antwort (etwa 1 Prozent) ist kein direktes Maß für die Wahrscheinlichkeit, dass die Münze gewichtet ist, sondern ein Maß dafür, wie unwahrscheinlich das Neun-von-10-Ergebnis ist - eine Information, die bei der Untersuchung des Verdachts nützlich sein kann.
Im Gegensatz dazu wird bei Bayes’schen Berechnungen direkt die Wahrscheinlichkeit der Hypothese ermittelt, wobei nicht nur die Daten aus dem Münzwurf-Experiment, sondern auch alle anderen relevanten Informationen berücksichtigt werden - einschließlich der Frage, ob man den Freund schon einmal mit einer gewichteten Münze gesehen hat.
(Quelle: https://twitter.com/RevBayes/status/506577193804111872/photo/1)
Frequentistische Methoden liefern einfache Interpretationen von p-Werten und Konfidenzintervallen in Form von Wahrscheinlichkeiten für die Beobachtung der Daten unter der Nullhypothese. Im Gegensatz dazu bietet die Bayes’sche Analyse intuitive Interpretationen der posterioren Wahrscheinlichkeiten, erfordert jedoch die Angabe von Prioritätsverteilungen, die subjektiv sein können. Die Bayes’sche Analyse ist besonders von Vorteil, wenn man mit kleinen Stichprobengrößen oder komplexen Modellen zu tun hat, da sie ohne Weiteres vorherige Informationen einbezieht und eine unkomplizierte Aktualisierung der Annahmen ermöglicht. Frequentistische Methoden hingegen sind abhängig von einer ausreichend großen Anzahl an Daten, einer Sample Size, was bedeutet, dass eine bestimmte Anzahl an Besuchern im Test enthalten sein müssen, um signifikante Ergebnisse zu liefern. Das Problem hierbei ist jedoch, dass die Sample Size beim frequentistischen Ansatz vor dem Test bestimmt bzw. geschätzt werden muss und diese zu erreichen, nicht garantiert ist.
Zusammenfassend lässt sich sagen, dass sowohl der frequentistische als auch der Bayes’sche Ansatz wertvolle Hilfsmittel für die Bewertung der Signifikanz und für das Ziehen von Schlussfolgerungen aus Daten bieten. Während sich die frequentistische Methode auf langfristige Häufigkeiten konzentriert und eindeutige Interpretationen von p-Werten und Konfidenzintervallen liefert, ermöglicht die Bayes’sche Analyse die Einbeziehung von Vorwissen und bietet intuitive Interpretationen von posterioren Wahrscheinlichkeiten. Bei der Wahl der Methode gibt es kein richtig oder falsch. Letztlich hängt die Wahl zwischen diesen Ansätzen von den spezifischen Anforderungen des zu untersuchenden Problems und den Präferenzen des Forschers ab. Es gibt sogar eine noch bessere Nachricht: Man muss sich inzwischen nicht mehr wirklich für eine Seite entscheiden, da derzeit viele Testing-Plattformen hybride Modelle anbieten, die die traditionellen statistischen Modelle mit einer anderen Technologie wie Machine-Learning kombinieren.