A/B-Tests beenden: Wie viele Conversions benötige ich?

A/B-Tests sind sehr hilfreich und mittlerweile einfach umzusetzen. Die A/B-Testing Tools werden immer besser. Daher verlassen sich die Menschen immer mehr auf die Entwickler und Anbieter dieser Testing-Tools, während das kritische Denken ein wenig verloren geht.

Es ist unfair, ausschließlich die Testing-Tools dafür verantwortlich zu machen. Man kann den Tools nicht vorwerfen, dass sie versuchen, alles zu vereinfachen und hübsche Reports mit positiven Zahlen in den Vordergrund zu rücken. Das Internet ist voll von A/B-Test-Posts und Fallstudien (häufig gespickt mit fragwürdigen Daten und imaginären Uplifts). Du solltest zumindest vorsichtig sein, wenn du eine Fallstudie liest oder jemanden sagen hörst „klappt auf jeden Fall, wir haben das getestet“.

Wir lernen alle noch über A/B-Testing. Je mehr man durchführt, desto besser wird man darin. Daher ist es nur natürlich, dass jeder Optimierer (einschließlich mir selbst) in der Vergangenheit eine Menge Testfehler gemacht hat. Einige Fehler passieren häufiger als andere, aber es gibt auch den einen Standardfehler: den Test zu früh zu beenden.

Beende den Test nicht, wenn du eine 95% Confidence (oder höher) erreicht hast

Diese ist die erste Regel und sehr wichtig. Es ist menschlich, „Yippikayeah“ zu schreien, den Test beenden zu wollen und die validierte Hypothese sofort in allen Ländern auszurollen. Aber viele (wenn sie sich überhaupt die Mühe machen, das zu überprüfen) entdecken später, dass die versprochenen 20% Uplift des Tests keine Auswirkungen auf das Geschäft hatten. Weil es keinen wirklichen Uplift gab – er war imaginär.

Bedenke Folgendes: Eintausend A/A-Tests (zwei identische Seiten, gegeneinander getestet) wurden ausgeführt.

771 Experimente von 1.000 erreichten zu einem bestimmten Zeitpunkt ein Konfidenzniveau von 90%
531 Experimente von 1.000 erreichten zu einem bestimmten Zeitpunkt ein Konfidenzniveau von 95%

Zitat vom Experimentator:

This means if you’ve run 1.000 experiments and didn’t control for repeat testing error in any way, a rate of successful positive experiments up to 25% might be explained by a false positive rate. But you’ll see a temporary significant effect in around half of your experiments!

Also, wenn du deinen Test beendest, sobald du einen Uplift siehst und ein halbwegs positives Konfidenzniveau erreicht hast, gibt es eine 50% ige Chance, dass dein Ergebnis kompletter Zufall ist. Ein Münzwurf.

Sobald der Experimentator die erforderliche Stichprobengröße im Vorhinein bestimmte und das Experiment entsprechend änderte, waren nur noch 51 Experimente von 1.000 bei einem 95% Konfidenzniveau signifikant. Durch Anpassung an die erforderliche Stichprobengröße sank die Anzahl der „erfolgreichen“ Tests von 531 auf 51.

Du kannst das Experiment hier selbst ausführen.

Wie kann ich die benötigte Stichprobengröße im Vorhinein bestimmen?

Dafür gibt es viele großartige Werkzeuge wie dieses. Oder du nutzt Evan Millers Tools:

Sample-Size Kalkulator - Evan Miller

In unserem Beispiel haben wir dem Tool gesagt, dass wir eine Conversion-Rate von 3% haben und mindestens 10% Uplift erkennen wollen. Das Tool sagt uns, dass wir 85.873 Besucher pro Variante benötigen, bevor wir uns das Signifikanzniveau und die statistische Stärke ansehen sollten.

Es gibt keine Zauberformel für Conversions

Was ist mit den Regeln wie, „X Anzahl der Conversions pro Variante„?

Auch wenn du auf Aussagen wie „Sie benötigen mindestens 200 Conversions pro Variante, um den Test zu beenden“ stoßen wirst, gibt es keine magische Traffic- oder Conversion-Anzahl.

Es kommt nie darauf an, wie viele Conversions erzielt werden, es geht darum, genügend Daten zur Validierung zu haben, basierend auf repräsentativen Stichproben und repräsentativem Verhalten. 100 Conversions reichen nur in den seltensten Fällen aus, um verlässliche Aussagen über den erzielten Uplift treffen zu können: Bedingungen wie Zeitverhalten, Konsistenz und Normalverteilung müssen erfüllt sein, und selbst dann gibt es eine sehr hohe Chance auf einen Fehler vom Typ I, falsch positiv.

Jedes Mal, wenn du eine genaue Anzahl von Mindest-Conversions siehst, ist dies ein Hinweis, dass der Autor nicht ganz sattelfest beim Thema Statistik ist.

Und – wenn 100 oder 200 Conversions die magische Zahl wären, könnten große Websites ihre Tests in wenigen Minuten beenden! Das ist jedoch nicht der Fall.

Wenn du eine Website hast, die 100.000 Transaktionen pro Tag durchführt, können 200 Conversions unmöglich eine repräsentative Größe für deinen Gesamt-Traffic darstellen.

Dies führt zum nächsten wichtigen Punkt – Repräsentativität deiner Stichprobengröße.

Wie repräsentativ ist der Traffic im A/B-Test?

Bei der Umsetzung von Tests nutzt du eine Teilgruppe der Besucher für ein Experiment. Daher musst du sicherstellen, dass die Stichprobe für deinen gesamten regulären Traffic repräsentativ ist. Denn nur dann verhält sich deine Teilgruppe genau so, wie sich deine echten Käufer verhalten würden.

Manche Tester möchten A/B-Tests dadurch beschleunigen, dass sie die Stichprobengröße erhöhen. Sie tun dies, indem sie große Mengen Traffic auf die Seiten des Experiments schicken (z.B. mit gekauftem SEA-Traffic). Wenn deine Besucheranzahl niedrig ist, solltest du deine E-Mail-Liste durchsuchen oder vorübergehend Traffic kaufen, um ausreichend große Stichproben für den Test zu erhalten?

Nein! Natürlich nicht.

In den meisten Fällen würdest du dem Selektionseffekt zum Opfer fallen – du gehst fälschlicherweise davon aus, dass ein Teil des Traffics die Gesamtheit des Traffics abbildet. Du könntest die Conversion für ein Segment erhöhen, aber verwechsele das nicht mit einer Steigerung über die Segmente hinweg. Dein zusätzlich gekaufter Traffic verzerrt deinen Test, so dass dieser am Testende keinerlei valide Aussage über das zukünftige Verhalten deiner normalen Website-Besucher zulässt.

Dein Test sollte für einen oder noch besser zwei Geschäftszyklen laufen.

Folgendes solltest du berücksichtigen, wenn du deine Testdauer festlegst:

  • jeden Tag der Woche (und teste immer in Wochen-Zyklen, da dein täglicher Traffic stark variieren kann)
  • verschiedene Traffic-Quellen (außer, du möchtest das Erlebnis für eine bestimmte Gruppe/Segment personalisieren)
  • deinen Blogpost- und Newsletterveröffentlichungsplan
  • potenzielle Kunden, die deine Seite besucht haben, über dein Angebot nachdenken und dann, 10 Tage später, zurückgekommen sind, um es zu kaufen,
  • jedes externe Ereignis, das sich auf den Einkauf auswirken könnte (z.B. Gehaltseingang).

Viel wichtiger als die genaue Anzahl der Besucher ist in deinem Experiment die Repräsentativität der Stichprobe, die Größe des Effekts und deine ursprüngliche Testabsicht.

Wenn deine Stichprobe keine gute Abbildung deines Gesamt-Traffics darstellt, sind auch die Ergebnisse nicht repräsentativ.
Verschwende deine Zeit nicht damit, nach Zauberformeln zu suchen: A/B-Testing ist ist Wissenschaft, keine Magie.

Wenn die Stichprobengröße gering ist, ist auch ein Konfidenzniveau von 99% verdächtig

Du hast also einen Test gemacht, bei dem Variante B das Original geschlagen hat, und es gab einen beeindruckenden Uplift – vielleicht + 30%, + 50% oder sogar + 100%! Und dann siehst du die absoluten Zahlen an – bei der die Stichprobengröße etwa 425 Besucher betrug. Wenn die Variante B 100% besser ist, stehen wir jetzt bei 42 Conversions…im Vergleich zu 21…

Wenn wir also diese Zahlen in einen Taschenrechner packen, können wir definitiv sehen, dass dies signifikant sein könnte.

ABER – ruhig Blut. Die Berechnung der statistischen Signifikanz ist eine Matheübung in Algebra, sie sagt dir nichts über den realen Erfolg deines Testing-Programms.

Da die Stichprobengröße so klein ist (nur 425 Besucher), ist die Wahrscheinlichkeit groß, dass, wenn du dein Experiment fortführst und die Stichprobe vergrößerst, der Uplift verschwindet oder zumindest stark abnimmt (regression to the mean – die Regression in Richtung Mittelwert). Normalerweise ignoriere ich Testergebnisse, die weniger als 250-350 Conversions pro Variante haben, da ich immer wieder gesehen habe, dass sich diese Zahlen ändern, wenn du den Test laufen lässt und die Stichprobe größer wird.

Jeder, der Erfahrung in der Durchführung hunderter Tests hat, kann dir davon berichten. Viele der „frühen Gewinne“ verschwinden, wenn du länger testest und die Stichprobengröße steigerst.

Ich führe die meisten meiner Tests für mindestens 4 volle Wochen durch (auch wenn die benötigte Größe viel früher erreicht wurde) – es sei denn, es gibt stichhaltige Beweise, dass sich die Zahlen für einen bestimmten Wert früher (2 oder 3 Wochen) stabilisieren.

Bei wenig Traffic benötigst du größere Uplifts, um einen Test pro Monat durchzuführen, aber …

Viele Websites haben nur einen geringen Datenverkehr und eine niedrige Anzahl monatlicher Transaktionen. Um also innerhalb von 30 Tagen einen Test abzuschließen, benötigst du einen großen Uplift.

Kyle Rush von Optimizely erklärt es hier. Wenn du größere Uplifts hast (z. B. + 50%), kannst du auf jeden Fall mit kleineren Stichprobengrößen auskommen. Aber es wäre naiv zu glauben, dass kleinere Websites größere Uplifts leichter erzielen können als große Websites.

Die einzige Möglichkeit, einen radikalen Anstieg zu erhalten, ist, radikalere Änderungen zu testen. Du kannst keine großen Gewinne erwarten, wenn du nur den Call-to-Action oder unwichtige Website-Elemente änderst.

Wichtig ist auch: Testen ist keine obligatorische Komponente der Optimierung. Du kannst auch eine Menge verbessern, ohne zu testen.

Sei misstrauisch, wenn du keine absolute Zahlen siehst

Die meisten A/B-Test Fallstudien veröffentlichen nur relative Zuwächse und Uplifts. Wir haben einen 20% igen Uplift! 30% mehr Anmeldungen! 90% mehr Klicks auf den Button. Das ist gut, denn wir wollen ja auch den relativen Unterschied von zwei Varianten wissen. Aber können wir diesen Behauptungen vertrauen? Ohne die absoluten Zahlen zu kennen, können wir es nicht.

Es gibt viele Gründe, warum jemand keine absoluten Zahlen veröffentlichen will (Angst, sich zu blamieren, Angst vor der Konkurrenz, übereifrige Rechtsabteilung usw.). Ich verstehe es. Es gibt viele Fallstudien, die ich gerne veröffentlichen würde, aber meine Kunden werden das nicht zulassen. Sie haben schließlich dafür gezahlt, einen Wettbewerbsvorteil zu haben.

Aber es bleibt dabei: Wenn du nicht die Dauer, die Gesamtgröße der Stichprobe und die Anzahl der Conversions pro Variante eines Test-Szenarios kennst, solltest du zumindest skeptisch bleiben, bevor du die Ergebnisse der Fallstudie auf deine Website überträgst. Es besteht eine große Chance, dass der Test nicht richtig gemacht wurde, und der Uplift rein imaginär ist.

Das solltest du mitnehmen

Bevor du einen Test als „eingetütet“ deklarieren kannst, musst du sicherstellen, dass die Stichprobengröße und die Testdauer ausreichend sind (um eine gute Repräsentativität zu gewährleisten), bevor du dir das Konfidenzniveau ansiehst.

Happy Testing!

About the Author:

Upliftr-Gründer Valentin Espagné hat bereits einen ganzen Weihnachtsmann-Sack mit Landingpages, A/B-Tests und Conversion Optimierungs-Projekten gesehen und betreut. Er ist überzeugt, dass Conversion Marketing Wissen kein Monopol-Wissen bleiben sollte. Wer es dann immer noch falsch macht, der muss eben dafür bezahlen, dass es jemand für ihn erledigt. Als Speaker trifft man ihn auf Online-Marketing-Veranstaltungen auf seiner Mission, die digitale Welt ein Stückchen besser zu machen. Du solltest Valentin auf Twitter folgen.» Mehr Blog-Artikel von Valentin Espagné