Deine Uplifts sind nicht real – Statistische Signifikanz ist nicht gleich Validität

Ein beliebtes Szenario: Ein Unternehmen führt im Laufe eines Jahres Dutzende von A/B-Tests durch, von denen viele „gewinnen“. Einige Test-Varianten steigern den Umsatz um 25% oder sogar mehr. Wenn die Änderungen dann eingeführt werden, steigt der Umsatz jedoch nicht um 25%. Und 12 Monate nach Durchführung aller Tests ist die Conversionrate noch immer ähnlich. Wie kommts?

Die Antwort ist: Die Uplifts waren imaginär. Es hat nie einen echten Uplift gegeben. Ja, das Testing-Tool sagt, dass die statistische Signifikanz bei 95% oder höher liegt. Das bedeutet allerdings nicht viel. Statistische Signifikanz und Validität des Testes sind zwei unterschiedliche Dinge.

Statistische Signifikanz ist keine Start/Stopp-Regel

Wenn deine Tests ein Konfidenz-Niveau von 95% oder sogar 99% erreichen, bedeutet dies nicht, dass deine Test-Variante ein Gewinner ist.

Hier ist ein Beispiel von Peep Laja. Zwei Tage nach dem Start eines Tests sahen die Ergebnisse folgendermaßen aus:

Die Variante, d.h. der Herausforderer in diesem Test, schnitt sehr schlecht ab – mehr als 89% schlechter (und es gab keinerlei Überlappung in der Fehlermarge). Das Tool zeigt eine statistische Signifikanz an, die bedeutet, dass diese Variante eine 0% Chance hat, das Original zu schlagen. Zack, fertig ist der Test.

Ist das ein statistisch signifikantes Ergebnis? Ja, das ist es. Geben wir die gleichen Zahlen für Testteilnehmer und Conversions in einen statistischen Signifikanzrechner ein, meldet der uns eine eindeutige Signifikanz. Hier sind die Ergebnisse mit diesem fantastischen Signifikanzrechner berechnet:

 

Also ein 100% signifikanter Test und die Baseline-Variante hat eine um 852.76% höhere Conversionrate (8.66% zu 0.91%) als die Herausforderer-Variante. Was passiert aber, wenn wir dem Test etwas mehr Zeit geben?

So sah es 10 Tage später aus:

Ja, die Variante, die vorher eine 0% Chance hatte das Original zu schlagen, gewann jetzt (mit einem Konfidenzniveau von 95%). Was hat es damit auf sich? Wie kommt es, dass „100% Signifikanz“ und „0% Chance to Beat Original“ bedeutungslos wurden? Weil Signifikanz nicht der einzige und entscheidende Faktor ist.

Wenn du den Test vorzeitig beendest, besteht immer die Chance, dass du den falschen Gewinner wählst. In dem oben genannten Szenario würden viele Unternehmen und Marketer täglich in die Ergebnisse des Tests schauen und sobald das Tool statistische Signifikanz und damit das Ende des Test signalisiert, den Gewinner küren (bzw. die Variante verwerfen). Dabei sind die 800% Uplift des Originals gegenüber der Variante nach 14 Tagen Laufzeit verloren und wir verzichten fälschlicherweise auf den 25 % Uplift unserer fantastischen Variante.

Noch schlimmer als der imaginäre Uplift, den du jetzt hast, ist das irreführende Vertrauen in die Validität der Testaussage. Du gehst davon aus, etwas über deine Nutzer gelernt zu haben und wendest dieses Wissen an anderer Stelle auf der Website an. Aber die Erkenntnis ist irreführend, so dass alle deine Änderungen und Ableitungen kompletter Unsinn sind.

Das gleiche Ergebnis gilt für den zweiten Test-Screenshot (nach 10 Tagen) – auch wenn das Testing-Tool dieses Mal sicher ist, dass unsere Variante eine 95% Signifikanz hat, ist das noch nicht das Ende vom Lied. Die Stichprobe ist zu klein, der absolute Unterschied bei den Conversions beträgt nur 19 Transaktionen. Das kann sich an einem oder zwei Tagen leicht ändern.

Du solltest wissen, dass das Beenden eines „nur signifikanten“ Tests, die Todsünde Nummer 1 im A/B-Test-Land ist. 77% der A/A-Tests (der Test einer Seite gegen sich selbst, ohne Änderungen) werden an einem bestimmten Punkt im Testzeitraum Signifikanz anzeigen.

Erfahre, was Signifikanz wirklich ist

Statistische Signifikanz ist kein Grund, deinen Test für beendet zu erklären.

Die statistische Signifikanz teilt uns weder die Wahrscheinlichkeit mit, dass B besser ist als A. Noch sagt sie uns etwas über die Wahrscheinlichkeit, dass wir einen Fehler bei der Auswahl von Variante B gegenüber Variante A machen. Wenn du erfahren möchtest, was es mit p-Werten auf sich hat, lies diesen Artikel.

Lass deine Tests länger laufen

Wenn du deine Tests nach ein paar Tagen abbrichst, machst du in der Regel einen Fehler. Es spielt keine Rolle, ob du 10.000 Transaktionen pro Tag hast – ja, die absolute Anzahl der Transaktionen ist wichtig, aber du brauchst auch ganz einfach Zeit.

Folgendes Szenario ist sehr typisch:

  • In den ersten paar Tagen: Variante B ist der große Gewinner. In der Regel aufgrund des Neuheitsfaktors.
  • Nach der 1. Woche: Variante B liegt klar vorne.
  • Nach der zweiten Woche: Variante B gewinnt noch immer, aber der relative Unterschied ist kleiner.
  • Nach Woche 4: Regression zum Mittelwert – der Uplift ist verschwunden.

Wenn du also den Test vor dem Ablauf der 4 Wochen (vielleicht sogar nach ein paar Tagen) abbrichst, vermutest du wahrscheinlich, dass du eine Gewinnvariante hast, was sich aber nicht bewahrheitet. Wenn du diesen Gewinner also live ausrollst, haben wir das, was ich einen „imaginären Uplift“ nenne. Du denkst, wir haben einen Uplift, weil dein Testing-Tool +25% Steigerung zeigte, aber wir sehen kein Wachstum auf deinem Bankkonto.

Führe deine Tests länger aus. Stelle sicher, dass deine Tests zwei Geschäftszyklen enthalten, genügend absolute Conversions/Transaktionen umfassen und ausreichend Zeit bekommen.

Beispiel: imaginärer Uplift

Hier ist ein Test, der für einen E-Commerce-Kunden durchgeführt wurde. Die Testdauer betrug 35 Tage, zielte nur auf Desktop-Besucher und hatte fast 3000 Transaktionen pro Variante.

Spoiler: Der Test endete ohne Gewinner. Hier ist die Optimizely-Übersicht für den Umsatz:

Schauen wir uns den Graphen etwas genauer an:

  • Während der ersten paar Tage ist blau (Variation # 3) der große Gewinner – mit 16,- € pro Besucher gegenüber 12,5 € für die Original-Variante. #Win! Viele Marketer beenden den Test an dieser Stelle. (Fail).
  • Nach 7 Tagen: Blau gewinnt noch immer – und der relative Unterschied ist groß genug.
  • Nach 14 Tagen: Orange (# 4) gewinnt!
  • Nach 21 Tagen: Orange gewinnt immer noch!
  • Am Ende des Tests: kein signifikanter Unterschied

Hättest du den Test also weniger als 4 Wochen durchgeführt, hättest du einen falschen Gewinner gefeiert.

Die Test-Stopp-Regel

Wann kannst du einen Test beenden?

Leider gibt es keine universelle und einfache Antwort in den Weiten des Webs. Es gibt nur einige „hängt davon ab“ Faktoren. Nichtsdestotrotz gibt es ziemlich gute Faustregeln, die dich in den meisten Fällen auf den richtigen Weg bringen.

Hier sind meine Vorschläge für deine Test-Stopp-Regel:

  1. Testdauer: mindestens 3 Wochen (besser 4)
  2. Du hast mindestens die vorab berechnete Stichprobengröße erreicht (hier, hier oder hier).
  3. Glaube keinem Test der weniger als 300-400 Conversions pro Variante hat.
  4. Die statistische Signifikanz beträgt mindestens 95%

Dies sind keine eisernen Regeln und können sich wegen Besonderheiten eines Tests auch mal ändern, aber in den meisten Fällen bist du mit diesen vier Punkten auf der sicheren Seite.

Dein Test soll genug Daten sammeln, um wirklich einen Geschäftszyklus abzubilden, aber nicht so lange laufen, dass deine Daten durch externe Faktoren verunreinigt werden.

Was ist, wenn der A/B-Test nach 3 oder 4 Wochen weniger als 400 Conversions pro Variante beträgt?

Ich lasse den Test länger laufen. Wenn nach 4 Wochen die Stichprobengröße nicht erreicht wird, werde ich eine weitere Woche hinzufügen.

Teste immer ganze Wochen. Wenn du den Test an einem Montag 9:00 Uhr beginnst, sollte er an einem Montag um 8:59 Uhr enden. Wenn du nicht eine komplette Woche testest, besteht die Gefahr deine Ergebnisse zu verzerren. Überprüfe in deiner Webanalyse den Bericht „Conversions pro Wochentag“, um festzustellen, wie hoch die Fluktuation ist.

Hier ist ein Beispiel:

Was siehst du hier? Montags machen wir bis zu 2.5 mal mehr Geld als am Samstag und Sonntag, und die Conversionrate ist an Montagen und Freitags 50% besser als am Sonntag.

Wenn wir nicht ganze Wochen testen würden, wären die Ergebnisse verzerrt. Das solltest du also machen: Teste immer in Blöcken von ganzen Wochen.

Segmente beachten: Für jedes Segment gilt die gleiche Stopp-Regel

Die Segmentierung ist der Schlüssel um aus A/B-Tests wirklich etwas zu lernen. Es ist sehr üblich, dass, obwohl Variante B im Gesamtergebnis gegenüber Variante A verliert, Variante B in einigen Segmente (z. B. Facebook-Traffic, Benutzer mobiler Geräte usw.) doch besser abschneidet als Variante A.

Bevor du segmentierte Daten analysieren kannst, musst du sicherstellen, dass du auch innerhalb des Segments eine genügend große Stichprobe hast. Also 300-400 Conversions pro Variante innerhalb des einen Segments, das du betrachtest.

Meine Empfehlung ist sogar, dass du gezielt Tests für einzelne Segmente erstellst (Nutzer-Targeting / -Segment in der Testkonfiguration festlegen), anstatt die Ergebnisse nach dem Test segmentübergreifend zu analysieren. Auf diese Weise kannst du sicherstellen, dass Tests nicht frühzeitig beendet werden und jedes Segment über eine angemessene Stichprobengröße verfügt.

Vorsicht: Die nachträgliche Suche nach „Gewinnern“ in den Segmenten birgt wieder die Gefahr, statistische Validität anzunehmen, obwohl deine Daten keine statistische Signifikanz haben – z.B. 97 vs. 85 Conversions.

Aus A/B-Tests zu lernen ist sehr wichtig – sogar noch wichtiger als Gewinne zu erzielen. Die Segmentierung deiner Testdaten ist eine gute Lernmethode. Du solltest aber sicher sein, dass deine Segmente über genügend Daten verfügen, bevor du falsche Schlussfolgerungen ziehst.

Das solltest du mitnehmen

Nur weil dein Test ein Konfidenzniveau von mindestens 95% erreicht, solltest du den A/B-Test nicht stoppen. Beachte auch die absolute Anzahl der Conversions pro Variante und die Testdauer.

About the Author:

Upliftr-Gründer Valentin Espagné hat bereits einen ganzen Weihnachtsmann-Sack mit Landingpages, A/B-Tests und Conversion Optimierungs-Projekten gesehen und betreut. Er ist überzeugt, dass Conversion Marketing Wissen kein Monopol-Wissen bleiben sollte. Wer es dann immer noch falsch macht, der muss eben dafür bezahlen, dass es jemand für ihn erledigt. Als Speaker trifft man ihn auf Online-Marketing-Veranstaltungen auf seiner Mission, die digitale Welt ein Stückchen besser zu machen. Du solltest Valentin auf Twitter folgen.» Mehr Blog-Artikel von Valentin Espagné