Conversion Rate Optimization/19. März 2024 -Aktualisiert am 11. April 2024/5 Min. Lesezeit

Die Herausforderung der Sample Pollution: Eine Gefahr für die Datenqualität

In der Welt der Conversion-Rate-Optimierung und Datenanalyse ist die Qualität der Daten von entscheidender Bedeutung. Doch trotz aller Bemühungen um Genauigkeit und Zuverlässigkeit können verschiedene Faktoren die Qualität der Daten beeinträchtigen. Einer dieser Faktoren ist die sogenannte “Sample Pollution” – ein Phänomen, das erhebliche Auswirkungen auf die Aussagekraft der Analyseergebnisse hat.

Doch was genau ist Sample Pollution?

Sample Pollution tritt auf, wenn das untersuchte Datenmaterial in A/B-Tests durch unkontrollierte externe Faktoren verunreinigt und verzerrt wird. Dies kann verschiedene Ursachen haben. Um festzustellen, ob Tests verschmutzt sind oder nicht, sollten die vier häufigsten Arten der Sample Pollution durchgegangen werden:

  • Length Pollution
  • Device Pollution
  • Browser Pollution
  • Cookie Pollution

Length Pollution: Wenn Tests zu schnell gestoppt werden oder zu lange laufen

Length Pollution kommt ins Spiel, wenn ein Test zu früh beendet wurde oder zu lange lief. Werden Tests bei Erreichen der Signifikanz und nicht nach Erreichen der nötigen Stichprobengröße beendet, liegt Length Pollution vor. Andererseits ist es umso wahrscheinlicher, dass externe Faktoren (z.B. Feiertage, technische Probleme, Kampagnen-Änderungen usw.) Tests beeinflussen und zu ungültigen Ergebnissen führen, je länger ein Test läuft.

Device Pollution: Wenn mehrere Devices verwendet werden

Laut einer Studie des GlobalWebIndex aus dem Jahr 2020 besitzen weltweit 69 Prozent der Internetnutzer einen Computer oder Laptop, 37 Prozent ein Tablet und 94 Prozent ein Smartphone. In Europa sind es sogar 83 Prozent mit einem Desktop-Gerät, ganze 93 Prozent mit einem Smartphone und 50 Prozent der Nutzer besitzen ein Tablet. 93 Prozent der europäischen Internetnutzer besitzen nicht nur, sondern nutzen auch aktiv das Smartphone, 91 Prozent den Computer oder Laptop und 73 Prozent das Tablet, um im Internet zu surfen. Wichtig ist zu wissen, dass Internetnutzer häufig mehrere Geräte besitzen und verwenden, was bedeutet, dass einige Besucher in Tests zwei- bis dreimal erfasst werden, weil sie das Gerät gewechselt haben.

(Quelle: GlobalWebIndex 2015-2019 (Durchschnittswerte der zwischen Q1 2015 und Q4 2019 durchgeführten Befragungswellen) Grundlage: 197.734 (2015), 211.023 (2016), 370.051 (2017), 474.573 (2018), 598.185 (2019) Internetnutzer zwischen 16 und 64 Jahren)

(Quelle: GlobalWebIndex Q4 2019 Grundlage: 173.859 Internetnutzer im Alter von 16-64 Jahren)

Browser Pollution: Wenn Nutzer den Browser wechseln

Browser Pollution ist der Device Pollution sehr ähnlich. Obwohl die meisten einen bevorzugten Browser haben, verwenden andere mehrere Browser. Auch hier besteht das Problem, dass einige User zwei- bis dreimal in Tests getrackt werden, nur weil sie den Browser gewechselt haben.

Cookie Pollution: Wenn Cookies gelöscht werden

Eine Studie des Marktforschers Innofact im Auftrag von netID hat ergeben, dass 47,2 Prozent der Internetnutzer ihre Cookie-Einstellungen anpassen und nur technisch notwendige Cookies zulassen. 43,7 Prozent löschen sogar ihre Cookies regelmäßig. CRO-Consultant Ton Wesseling hat festgestellt, dass 10 Prozent der User innerhalb von zwei Wochen Cookies löschen. Dies beeinträchtigt die Qualität der Stichprobe erheblich.

Auswirkungen auf die Datenqualität

Die Auswirkungen von Sample Pollution können gravierend sein und reichen von subtilen Verzerrungen bis hin zu schwerwiegenden Fehlinterpretationen der Daten. Wenn unrepräsentative Daten in eine Analyse einfließen, werden damit die Ergebnisse verzerrt , was dazu führt, falsche Schlussfolgerungen zu treffen. Dies kann insbesondere bei Entscheidungen auf Grundlage von Datenanalysen zu erheblichen Fehlern führen, sei es in wissenschaftlichen Studien, politischen Entscheidungen, wirtschaftlichen Prognosen, oder aber eben auch beim A/B-Testing.

Wie Sample Pollution reduziert werden kann

Sample Pollution ist eine ernstzunehmende Herausforderung für die Datenqualität und kann erhebliche Auswirkungen auf die Gültigkeit und Zuverlässigkeit von Analyse- und Test-Ergebnissen haben. Einige Maßnahmen können dazu beitragen, die Auswirkungen von Sample Pollution zu minimieren und die Integrität der Daten zu gewährleisten:

  • Durchführung von Device-spezifischen Tests
  • Durchführung von Browser-spezifischen Tests
  • Identifizierung von Nutzern, z. B. mit einer E-Mail nach der Anmeldung
  • Die einfachste und wichtigste Regel: Begrenzen des Testzeitraums auf zwei bis vier Wochen (Bedeutet auch, nicht zu testen, wo mehr Traffic benötigt wird. Vorher Stichprobengröße berechnen).
  • Idealerweise beinhaltet die Laufzeit ein bis zwei Business-Zyklen

Fazit

Unkontrollierte externe Faktoren, die zur sogenannten Sample Pollution führen, beeinträchtigen die Validität und Zuverlässigkeit der Datenanalysen erheblich, wodurch Fehlinterpretationen auf verschiedenen Ebenen entstehen. Daher ist es unabdingbar, alle möglichen Risiken zu berücksichtigen, um gezielt Maßnahmen zu ergreifen und den Auswirkungen entgegenzuwirken. Die Sicherstellung der Datenqualität ist beim A/B-Testing für CRO-Agenturen daher nicht nur von großer Bedeutung, sondern gehört zu ihrer höchsten Priorität und ihren Obliegenheiten, um fundierte Entscheidungen treffen zu können und das Vertrauen in die Analyseergebnisse zu stärken.