So funktioniert A/B-Testing – Der Einstieg

By | 2018-02-01T15:42:22+00:00 2. Januar 2018|Categories: A/B-Testing, CRO Grundlagen, Featured, Statistik|Tags: , , , , |0 Comments

Die Grundlagen des A/B Testings

In unserem letzten Artikel ging es darum, was getestet werden sollte. Jetzt müssen wir unsere Hypothesen anwenden, bestätigen und daraus lernen. Wähle ein Testwerkzeug aus und erstelle deine Optimierungen / alternativen Varianten, um sie im Test mit der aktuellen Seite (wir nennen diese Original, Control oder Baseline) zu vergleichen.

Es gibt keinen Mangel an A/B-Testing-Tools, eines ist sogar in Google Analytics integriert und völlig kostenlos. Wir verwenden am häufigsten Bunchbox, Optimizely und VWO, aber es gibt auch Qubit, Adobe Target, Convert.com, A/B-Tasty, Kameleoon, Google Optimize und viele andere.

Es ist wichtig zu wissen, dass du Tests ernst nehmen solltest. Ja, der Einstieg ist mittlerweile ziemlich einfach, aber die wirklich relevanten Tests benötigen Vorbereitung und die Hilfe eines Entwicklers (oder du solltest etwas HTML, CSS und JavaScript/jQuery lernen).

Den visuellen Editor der meisten A/B-Testing-Tools solltest du nur verwenden, wenn du kleine Änderungen vornehmen willst, z. B. die Texte (Überschrift, Copy etc.) optimieren möchtest. Bei allen weiteren Tests riskierst du, dass deine A/B-Test Bemühungen aufgrund von browserübergreifenden und geräteübergreifenden Kompatibilitätsproblemen fehlschlagen.

A/B-Testing funktioniert nicht mal eben so und nebenbei – du musst richtig testen! Schlechte Tests sind sogar noch schlimmer als gar keine Tests, da du sicher bist, dass die Lösungen A, B und C gut funktionieren, auch wenn sie in Wirklichkeit deinem Geschäft schaden.

Schlechte A/B-Testmethoden kosten Online-Händler in den USA laut Forschung von Qubit bis zu 13 Milliarden US-Dollar pro Jahr. Nimm das nicht auf die leichte Schulter!

Man hört oft von Unternehmen, die über ein Jahr hinweg 100 A/B-Tests durchführen, doch ihre Conversionrate stagniert. Warum? Weil sie falsch testen. Die meisten ihrer Tests hatten entweder falsch-positive oder falsch-negative Ergebnisse. Das ist eine massive Verschwendung von Zeit, Geld und Ressourcen.

Es gibt 4 Dinge, auf die du achten musst, wenn du dich entscheidest, ab jetzt mit dem A/B Testing zu beginnen:

A/B-Testing Regel 1: Stelle sicher, dass deine Stichprobe groß genug ist.

Um sicher zu sein, dass die Ergebnisse deines Tests tatsächlich gültig sind, musst du den Umfang der Stichprobengröße kennen, die du benötigst.

Du benötigst eine bestimmte Anzahl von Testteilnehmern für die richtige statistische Power (Aussagekraft). Wie groß deine Stichprobe sein muss erfährst du mithilfe der Berechnungs-Tools für die Stichproben-Größe.Die Rechner findest du z.B. hier, hier oder hier.

Die einzige wirkliche Gefahr besteht darin, den Test nach dem Betrachten der vorläufigen Ergebnisse vorzeitig zu beenden. Es entsteht grundsätzlich kein Schaden bei einer größeren Stichprobe (außer dass du mehr Zeit benötigst).

Eine grobe Empfehlung: Ignoriere deine Testergebnisse, bis du mindestens 350 Conversions pro Variante hast (definitiv mehr, wenn du die Ergebnisse segmentübergreifend betrachten möchtest). Aber 350 sind keine magische Zahl –  berechne also immer die benötigte Stichproben-Größe im Voraus!

Verwandte Artikel: A/B-Tests beenden: Wie viele Conversions brauche ich?

A/B-Testing Regel 2: Teste mindestens einen Geschäftszyklus

Bei einigen stark frequentierten Websites würdest du innerhalb von ein bis zwei Tagen die erforderliche Stichproben-Größe erreichen. Aber das ist keine repräsentative Stichprobe. Der Testzeitraum beinhaltet keinen vollständigen Geschäftszyklus, also alle Wochentage, ein Wochenende, alle Traffic-Quellen, deinen Blog-Publishing- und E-Mail-Newsletter-Zeitplan und alle anderen möglichen Variablen.

Für einen gültigen Test sollten also beide Bedingungen erfüllt sein – eine angemessene Stichprobengröße und eine ausreichend lange Zeitspanne, um alle Faktoren (einen vollständigen Geschäftszyklus oder besser noch zwei) zu berücksichtigen. Für die meisten Unternehmen sind das 2-4 Wochen. Führe die Tests immer ganze Wochen nacheinander durch (stoppe die Tests an den Tagen 7, 14, 21 oder 28).

A/B-Testing Regel 3: Achte auf statistische Signifikanz

Wenn ein A/B-Test-Dashboard (d.h. Bunchbox oder ein ähnliches frequentistisches Statistik-Tool) sagt, dass eine „95%ige Chance besteht, die Baseline zu schlagen“ – was bedeutet das? Es bedeutet, dass die Wahrscheinlichkeit, dass grundlegende Unterschiede zwischen Variante A und B nur zufällig entstanden sind, 5 % beträgt.

Dies wird als Signifikanzniveau bezeichnet und „statistisch signifikante Ergebnisse“ bedeuten, dass das Signifikanzniveau niedrig ist (z. B. 5% oder 1%)  – also die Fehlerwahrscheinlichkeit des Tests niedrig ist. Dashboards nehmen normalerweise den komplementären Wert (z. B. 95% oder 99%) und melden diesen als „Chance, das Original zu schlagen“ oder so ähnlich.

Wenn die Ergebnisse nicht statistisch signifikant sind, können die Ergebnisse durch zufällige Faktoren verursacht worden sein und es gibt keine Beziehung zwischen den vorgenommenen Änderungen und den Testergebnissen.

Verwechsle aber nicht die statistische Signifikanz mit der Validität. Sobald dein Testing-Tool angibt, dass du eine statistische Signifikanz von 95% (oder höher) erreicht hast, bedeutet das nichts, wenn du nicht auch über eine ausreichend große Stichprobengröße verfügst. Das Erreichen von Signifikanz im Testing-Tool ist keine Stoppe-sofort-den-Test-Regel.

Lies dazu den Artikel von ConversionXL um zu erfahren, warum. Die Unterscheidung von Validität und Signifikanz ist wichtig.

Bedenke Folgendes: Eine Probe bei Eintausend A/A-Tests (also zwei identische Seiten, die gegeneinander getestet wurden) hat ergeben, dass:

771 Experimente von 1.000 zu einem bestimmten Zeitpunkt eine Signifikanz von 90% erreichten.
531 Experimente von 1.000 zu einem bestimmten Zeitpunkt eine Signifikanz von 95% erreichten.

Zitat vom Experimentator:

„Dies bedeutet, dass, wenn du 1000 Experimente durchgeführt hast und diese nicht auf Wiederholungsfehler in irgendeiner Weise kontrolliert wurden, eine Rate erfolgreicher positiver Experimente von bis zu 25% durch eine falsch-positiv-Rate erklärt werden könnte. Aber du wirst in ungefähr der Hälfte deiner Experimente einen vorübergehenden signifikanten Effekt sehen!“

Also, wenn du deinen Test stoppst, sobald du eine hohe statistische Signifikanz siehst, gibt es eine 50%ige Chance, dass es kompletter Zufall ist. Ein sogenannter Münzwurf. Dieses Verhaltens macht die Idee des Testens zunichte.

Stelle also sicher, dass du beim Testen Folgendes beachtest:

  • eine ausreichend große Stichprobengröße (vorab berechnet).
  • eine ausreichend lange Testdauer (~ 1-2 Geschäftszyklen).
  • statistische Signifikanz (95% oder höher).

Bis die ersten beiden Kriterien erfüllt sind, bedeutet statistische Signifikanz wenig.

A/B-Testing Regel 4: Führe separate Tests für deine Desktop- und Mobil-Segmente durch

Es kann zwar sinnvoll erscheinen, A/B-Tests für deinen Gesamt-Traffic zusammen durchzuführen (um schneller eine entsprechend große Stichprobe zu erhalten), in Wirklichkeit ist es das jedoch nicht. Du musst deine mobile Zielgruppe und deine Desktop-Besucher getrennt voneinander ansprechen.

Hier sind 5 Gründe warum das so ist:

  • Verschiedene Dinge funktionieren in verschiedenen Kontexten. Was für Mobile funktioniert, funktioniert möglicherweise nicht auf dem Desktop (und umgekehrt).
  • Dein Desktop- und mobile Daten-Traffic Volumen ist unterschiedlich. Während dein Desktop-Segment eine ausreichend große Stichprobengröße hat, kannst du den Test nicht stoppen, da das mobile Segment noch eine größere Stichprobe benötigt.
  • Nicht jeder mobile Traffic ist gleich. Menschen auf unterschiedlichen Geräten/mobilen Betriebssystemen verhalten sich anders.
  • Möglicherweise möchtest du für verschiedene Ziele (Makro-Conversions) optimieren (z. B. Einkäufe für Desktops, aber E-Mail-Captures für Mobiltelefone).
  • Du kannst mehr Tests schneller erstellen. Wenn du Tests erstellest, die nur auf eine einzelne Gerätekategorie zielen, werden weniger Entwicklungs- und Qualitätssicherungs-Ressourcen pro Test benötigt. Dadurch bist du wesentlich schneller bei der Erstellung von Tests.

Lies mehr dazu hier.

Was passiert, wenn ich eine Website mit wenig Traffic habe?

Viele Websites weisen nur geringen Traffic und geringe monatliche Transaktionszahlen auf. Um also innerhalb von 4 Wochen einen Test abzuschließen (Du solltest einen Test nicht länger als einen Monat laufen lassen, oder du läufst Gefahr, deine Stichprobe zu verfälschen), benötigen du einen großen Uplift.

Wenn du auf größere Lifts zielst (also mehr als +50% Uplift), kommst du auch mit kleineren Stichprobengrößen aus. Aber es wäre naiv zu glauben, dass kleinere Websites größere Uplifts immer leichter erzielen können als große Websites.

Die einzige Möglichkeit, wenn du mit einer kleinen Website schnelle Fortschritte machen möchtest, ist, große und radikale Änderungen zu testen. Du kannst keinen großen Uplift erwarten, wenn du nur den Call-to-Action änderst (auch wenn Case Studies häufig etwas anderes behaupten). Führe Conversion-Recherchen durch, identifiziere die Probleme deiner Website und teste alle Änderungen auf einmal. Deine Chancen auf einen höheren Lift steigt dadurch, du verlierst nur einen Teil des Wissens, welche Änderung für welchen Teil des Uplifts verantwortlich war.

Denke auch daran: Testen ist keine obligatorische Komponente der Optimierung. Du kannst deine Seite auch verbessern, ohne zu testen.

Es gibt keinen Ersatz für Erfahrung

Fange jetzt mit dem A/B-Testing an.

Es gibt eine ganze Menge darüber zu lernen, aber der Inhalt dieses Artikels und die Artikel der CRO-Grundlagen-Reihe helfen dir bei einem guten Start.

Was du mitnehmen solltest

  • Berechne deine Stichprobengröße bevor du mit dem Test beginnst. Stoppe deinen Test nicht, bis die benötigte Stichprobengröße erreicht ist und mindestens ein vollständiger Geschäftszyklus durchlaufen ist, vorzugsweise zwei.
  • Du solltest eine Signifikanz von mindestens 95% erreichen, aber wenn du die Signifikanz erreicht hast, bedeutet das nicht, dass du deinen Test sofort abbrechen solltest. Lasse den Test laufen, bis die oben genannten Bedingungen erfüllt sind.
  • Segmentiere deinen Traffic. Teste Desktop/Tablet-Traffic getrennt vom mobilen Traffic, um die Unterschiede im Traffic-Aufkommen, in der Nutzerabsicht, der Kompatibilität usw. zu berücksichtigen.

About the Author:

Upliftr-Gründer Valentin Espagné hat bereits einen ganzen Weihnachtsmann-Sack mit Landingpages, A/B-Tests und Conversion Optimierungs-Projekten gesehen und betreut. Er ist überzeugt, dass Conversion Marketing Wissen kein Monopol-Wissen bleiben sollte. Wer es dann immer noch falsch macht, der muss eben dafür bezahlen, dass es jemand für ihn erledigt. Als Speaker trifft man ihn auf Online-Marketing-Veranstaltungen auf seiner Mission, die digitale Welt ein Stückchen besser zu machen. Du solltest Valentin auf Twitter folgen. » Mehr Blog-Artikel von Valentin Espagné