• Facebook
  • Google+
  • Twitter
  • XING
15.08.2005

Was bringen A/B-Tests wirklich?

Die Auswirkung von Designänderungen auf betriebswirtschaftliche Kennzahlen zu messen ist wertvoll. Doch häufig entsteht dabei ein allzu starrer Blick für kurzfristige Verbesserungen. Dieser eingeengte Blick übersieht schwerwiegendere Probleme, die sich nur mittels qualitativer Studien aufdecken lassen.

 

by Jakob Nielsen (deutsche Übersetzung) - 15.08.2005

 

Bei einem A/B-Test lässt man zwei unterschiedliche Designvarianten auf die Welt los und schaut, welche besser abschneidet. Jahrzehntelang wurde diese Methode in der Direktwerbung eingesetzt: Firmen teilen die Empfänger von Massenwerbebotschaften häufig in Gruppen auf, die unterschiedliche Versionen des Rundschreibens erhalten. A/B-Tests erfreuen sich auch auf dem Web zunehmender Verbreitung, wo es einfach ist, unterschiedlichen Besuchern abweichende Designs vorzuführen.

Manchmal handelt es sich bei A und B um zwei Designs, die in direkter Konkurrenz zueinander stehen und die dann jeweils einer Hälfte der Besucher angezeigt werden. Andere Male handelt es sich bei A um die aktuelle und bei B um eine neue, gewagte oder experimentelle Version, die dann nur einem kleinen Prozentsatz der Besucher vorgeführt wird, bis sie sich bewährt hat.

Vorteile

Gegenüber anderen Methoden haben A/B-Tests vier grosse Vorteile:

  • Sie messen das tatsächliche Verhalten Ihrer Kunden im realen Einsatz. Sie können mit Gewissheit folgern, dass Version B in Zukunft allen Besuchern angezeigt werden soll, nachdem Sie mit B mehr Verkäufe als mit A gemacht haben.
  • A/B-Tests können sehr geringe Leistungsunterschiede mit statistischer Signifikanz messen, da man tonnenweise Verkehr auf ein einzelnes Design leiten kann. Im unten angefügten Kästchen können Sie nachlesen, wie man zwischen zwei Designs einen Unterschied von nur 1% in den Verkäufen messen kann.
  • A/B-Tests können allfällige Widersprüche zwischen bestehenden Richtlinien oder qualitativen Usability-Resultaten auflösen, indem sie messen, was unter den gegebenen Umständen mehr Gewicht hat. Wenn eine E-Commerce-Website seine Besucher zum Beispiel an prominenter Stelle dazu auffordert, einen Rabatt-Coupon einzulösen, dann werden sich gemäss unseren Erfahrungen mit Nutzertests jene Besucher, die über keinen Coupon verfügen, grauenhaft darüber aufregen, dass sie mehr als andere bezahlen sollen. Zugleich aber handelt es sich bei Coupons um ein gutes Marketing-Instrument, und die Usability für Leute mit Coupon wird natürlich vermindert, wenn das Feld für die Eingabe des Rabatt-Codes nicht leicht zugänglich ist. Bei A/B-Tests auf E-Commerce-Sites, wobei je eine Version mit und eine ohne das Rabatt-Coupon-Feld getestet wurde, stellte sich heraus, dass die Gesamtverkaufszahlen um 20-50% höher liegen, wenn auf dem unmittelbaren Weg zur Kasse keine Aufforderung zur Eingabe des Rabatt-Codes erfolgt. Demnach lautet also die generelle Richtlinie: Vermeiden Sie ein prominentes Feld zur Eingabe eines Rabatt-Codes. Dennoch könnte es sein, dass gerade Ihre Site eine Ausnahme darstellt und Coupons mehr helfen als schaden. Das können Sie ja selbst leicht herausfinden, und zwar durch einen A/B-Test, der Ihrem speziellen Umfeld gerecht wird.
  • A/B-Tests sind billig: Wenn Sie erst einmal beide Designalternativen (bzw. die neue, die Sie gegen das bestehende Design testen möchten) gestaltet haben, dann müssen Sie nur noch beide auf den Server laden und ein kleines Stück Software kreieren, die dafür sorgt, dass die Besucher abwechslungsweise die eine oder die andere Version vorgesetzt bekommen. Im Normalfall müssen Sie zudem auf Besucherseite Cookies setzen, damit Ihre Nutzer beim nächsten Besuch wieder dieselbe Version angezeigt bekommen und nicht unter einem stetig ändernden Design zu leiden haben. Auch das ist ja einfach zu bewerkstelligen. Es braucht nicht extra einen Usability-Spezialisten, der dabei das Verhalten der Nutzer beobachtet oder komplizierte Fragen zum Interaktionsdesign analysiert. Sie brauchen nur abzuwarten, bis sich genug Material für die Statistik angesammelt hat, und sich dann für das Design zu entscheiden, das die besseren Werte liefert.

Grenzen von A/B-Tests

Angesichts dieser überwältigenden Vorteile: Warum benützen wir denn nicht gleich für alle Projekte A/B-Tests? Weil die Nachteile von A/B-Tests häufig deren Vorteile übertreffen.

Zunächst einmal können A/B-Tests nur für Projekte mit einem einzigen klaren Ziel zum Einsatz gelangen, das heisst für solche mit einem einzelnen Schlüsselindikator (KPI: key performance indicator) als Messgrösse. Zudem muss dieses Ziel mit einem Computer messbar sein, und zwar durch das Zählen einfacher Aktionen der Nutzer. Beispiele für solche Aktionen sind unter anderem:

  • die Verkäufe einer E-Commerce-Website.
  • die Anzahl der Besucher, die sich für einen E-Mail-Newsletter einschreiben.
  • die Anzahl der Besucher, die ein Online-Bankkonto eröffnen.
  • die Anzahl der Besucher, die sich ein Weissbuch runterladen, um einen Verkaufsanruf bitten oder sonst irgendwie einen offensichtlichen Schritt in Richtung Verkauf machen.

Leider kommt es selten vor, dass solche Aktionen das alleinige Ziel einer Website sind. Wohl spielt im E-Commerce der Wert der Verkäufe die zentrale Rolle. Doch Websites, die die Verkäufe nicht online abwickeln, können nicht behaupten, dass irgendeine einzelne Aktion auf Nutzerseite das einzige ist, was zählt. Natürlich ist es gut, dass ein Nutzer ein Formular zur Kontaktaufnahme ausfüllt. Aber es ist ebenfalls nützlich, wenn er die Website mit einem guten Eindruck von Ihrem Produkt verlässt und Ihre Firma bei einem späteren Kauf in die engere Auswahl der zu kontaktierenden Anbieter nimmt. Wenn Ihr einziges Entscheidungskriterium für ein Design z.B. ist, ob damit mehr Weissbücher runtergeladen werden, dann höhlen Sie damit möglicherweise andere Teile Ihres Geschäfts aus.

Für viele Websites sind die eigentlichen Ziele nicht durch Nutzeraktionen auf dem Server messbar. Steigerungen der Markenreputation oder das Ausmass, in dem Ihre Website Sie bei der Öffentlichkeitsarbeit unterstützt, lassen sich nicht daran messen, ob die Besucher auf einen bestimmten Knopf drücken oder nicht. Die durch Ihre Online-PR ausgelöste Medienberichterstattung kann durch eine Medienbeobachtungsagentur gemessen werden. Aber auch die kann Ihnen nicht sagen, ob der Journalist Ihre Website besucht hatte, bevor er Ihren CEO wegen eines Zitats anrief.

Ähnlich verhält es sich mit Newslettern: Sie können einfach messen, wie viele Nutzer sich für den E-Mail-Newsletter einschreiben. Aber Sie erfahren dabei nichts über die ebenfalls wichtige Frage, wie die Leute den Inhalt Ihres Newsletters lesen, wenn Sie sie nicht dabei beobachten, wie sie die Post öffnen.

Eine zweite Kehrseite von A/B-Tests ist die Tatsache, dass sie nur mit fixfertigen Designs funktionieren. Es ist billig, ein Design zu testen, wenn es schon steht und läuft, aber wir wissen alle, dass die Implementierung eines Designs eine lange Zeit beanspruchen kann. Bevor man es realen Kunden auf der Website präsentieren kann, muss man das experimentelle Design von all seinen Programmfehlerchen befreien. Ein A/B-Test eignet sich daher nur für ganz wenige kleine Ideenumsetzungen.

Mit Papier-Prototypen dagegen lassen sich innerhalb eines Tages mehrere unterschiedliche Ideen ausprobieren. Natürlich erhalten Sie durch einen Prototyp-Test nur qualitative Daten. Dafür aber helfen sie dabei, einige wirklich schlechte Ideen schnell zu begraben und den Fokus auf die guten zu legen. Langjährige Erfahrung lehrt, dass wiederholtes, kontinuierliches Herumschleifen am Design zu wirklich überlegenen Nutzeroberflächen führt. Wenn nun aber jeder einzelne dieser iterativen Schritte viel Zeit und Ressourcen für sich beansprucht, werden Sie letztlich zu wenig Schritte ausführen, um einem Design wirklich den Feinschliff zu verpassen.

Ein möglicher Kompromiss sieht vor, dass man zunächst Papier-Prototypen für die Entwicklung der Ideen verwendet. Wenn dann etwas Grossartiges vorliegt, kann man es in der letzten Phase einem A/B-Test unterwerfen, um herauszufinden, ob es wirklich besser ist als die bereits vorhandene Website. Aber A/B-Tests können nicht die treibende Kraft in einem Designprojekt sein.

Die kurzfristige Sicht

Was den A/B-Test attraktiv macht, ist die Zahl, die man Resultat des Tests erhält. In der Regel drückt sie irgendeine Handlung des Nutzers aus, wie z.B. einen Kaufabschluss. Theoretisch spricht nichts dagegen, als Messgrösse ein langfristiges Ergebnis wie beispielsweise den Gesamtwert eines Kunden über den Zeitraum von 5 Jahren zu verwenden. In der Praxis jedoch behält man einzelne Kunden nicht so lange im Auge. Niemand hat Zeit und Musse, 5 Jahre abzuwarten, bis er bestimmen kann, ob A oder B besser ist.

Wenn man seine Entscheidungen auf kurzfristige Zahlen abstellt, besteht die Gefahr, dass man auf Abwege gerät. Ein häufiges Beispiel ist folgendes: Sollten Sie eine Promotionskampagne auf Ihre Homepage oder auf einzelne Produktseiten platzieren? Wenn Sie nicht gerade etwas bewerben, was der Nutzer aktuell tatsächlich benötigen könnte, wird jede zusätzlich Werbung den Bildschirm weiter zerstückeln und dadurch die Usability der Site senken.

Wenn ich auf Usability-Probleme im Zusammenhang mit Werbung hinweise, erhalte ich oft das Gegenargument, die Werbung würde zusätzliche Einnahmen für den beworbenen Gegenstand oder Service erzeugen. Sicher: Jedesmal, wenn Sie etwas irgendwo prominent hinstellen, wird es zu mehr Verkäufen führen. Die Frage ist allerdings, ob das Ihrer Website in anderen Bereichen schadet.

Manchmal hilft hier ein A/B-Test, und zwar, wenn man anstelle der Verkäufe des beworbenen Produkts die Gesamtverkäufe betrachtet. Andere Male dagegen wird der A/B-Test einem fehlleiten, weil er die negativen Auswirkungen nicht sofort erfasst. Eine zerstückelte Site ist z.B. weniger angenehm zu nutzen und kann die Loyalität der Kunden senken. Die Besucher werden ihre gerade aktuellen Käufe vielleicht noch hier erledigen, doch nur mit einer kleinen Wahrscheinlichkeit wieder kommen. Selbst geringe derartige Effekte bauen ihren Kundenpool stufenweise ab, denn die Kunden suchen nach andern, besseren Sites. (Auf diese Weise haben unübersichtlichere Suchmaschinen über die letzten 4 Jahre kontinuierlich an Google verloren.)

Keine Einsichten ins Nutzerverhalten

Das grösste Problem mit A/B-Tests ist aber, dass man nicht genau weiss, warum man die Resultate erhalten hat. Sie beobachten die Nutzer nicht und haben auch keine Möglichkeit, nach ihren Gedankengängen zu fragen. Sie wissen nur, dass gemäss der Statistik mehr Leute mit Design A eine gewünschte Handlung ausgeführt haben als mit Design B. Sicher spricht das für Design A - aber es hilft Ihnen nicht bei weiteren Designfragen.

Nehmen wir an, Sie haben zwei unterschiedliche Grössen einer Schaltfläche zum Bestellen getestet und dabei festgestellt, dass mit der grösseren 1% mehr Verkäufe getätigt wurden. Heisst das nun, dass Sie mit einer noch grösseren Schaltfläche noch mehr verkaufen würden? Oder könnte es nicht sein, dass eine Schaltfläche, die von der Grösse her zwischen den beiden getesteten liegt, die Verkäufe gar um 2% steigern würde? Sie wissen es nicht. Um das herauszufinden, gibt es nichts anderes, als nochmals eine Runde mit einer andern Auswahl der Schaltflächen zu starten.

Natürlich haben Sie auch keinerlei Ahnung, ob andere Anpassungen eventuell sogar noch mehr bringen - so zum Beispiel ein Farbwechsel oder eine Umbenennung der Schaltfläche. Vielleicht würde auch eine Umpositionierung oder eine Grössenänderung der Beschriftung zu einem ähnlichen oder besseren Resultat führen. Im Grunde wissen Sie überhaupt nicht, warum die Version B nicht optimal war, womit Sie weiterhin bloss raten können, was sonst noch helfen könnte. Nach jeder Raterunde müssen Sie wieder neue Versionen implementieren und warten, bis sich genug Datenmaterial angesammelt hat, um Ihren Vorschlag zu verwerfen oder anzunehmen.

Am allerschlimmsten ist, dass ein A/B-Test nur Daten über das gerade getestete Element liefert. Es ist keine offene Methode wie ein Nutzertest, wo Nutzer manchmal über Sachen stolpern, die Sie nie erwartet hätten. Häufig tauchen beispielsweise Fragen des Vertrauens auf, wo Nutzer einfach kein Geschäft mit Ihnen machen möchten, weil Ihre Website Ihre Glaubwürdigkeit unterminiert.

Grössere Probleme, wie z.B. Vertrauensdefizite oder nichtssagende Produktseiten, führen häufig zu Effekten in der Grössenordnung von 100% und mehr. Das bedeutet, dass Ihre Verkäufe sich verdoppeln, wenn derartige Probleme aufgedeckt und behoben werden. Wenn Sie dagegen Ihre ganze Zeit fürs Herumschrauben an 1-2%igen Verbesserungen aufwenden, übersehen Sie leicht jene Verbesserungen um 100%, die von qualitativen Einsichten in Bedürfnisse, Wünsche und Ängste der Nutzer stammen.

Kombination der Methoden

Ein A/B-Test hat mehr Probleme als Vorteile. Sie sollten ihn daher nicht gleich als erstes einsetzen, wenn Sie sich an die Steigerung der Konversionsrate Ihrer Website machen. Sicher sollte er in einem Projekt auch nie die einzige Methode sein. Die qualitative Beobachtung des Anwenderverhaltens ist schneller und sorgt für tiefere Einsichten. Qualitative Studien sind auch weniger den Fehlern und Tücken quantitativer Untersuchungen unterworfen.

A/B-Tests haben dennoch auch einige Vorzüge und stellen eine gute Ergänzung zu qualitativen Studien dar. Wenn sich Ihre Firma einmal wirklich der Usability verschrieben hat und systematisch Nutzer in den Designprozess einbezieht, dann hat der A/B-Test sicherlich seinen Platz im Methoden-Repertoire.

Wie man durch A/B-Tests einen Anstieg der Verkäufe um 1% misst

Betrachten wir z.B. eine E-Commerce Website mit einer derzeitigen Konversionsrate von 2%. Wir wollen diese 2% nun mit einer grösseren "Kaufen"-Schaltfläche erhöhen. Also kreieren wir eine Testversion der Site mit einer grösseren Schaltfläche und konfrontieren 1,5 Mio. Besucher damit. In der Folge registrieren wir 30'300 Verkäufe statt die erwarteten 30'000. Die Verkäufe sind also um 1% gestiegen, was einer Konversionsrate von neu 2,02% entspricht.

Ist nun grösser wirklich besser? Nun, wäre die Konversionsrate bei 2,00% geblieben, dann hätte die Wahrscheinlichkeit, mindestens 30'300 Verkäufe aufzuzeichnen, nur 4% betragen. Daher ist es unwahrscheinlich, dass die zusätzlichen 300 Verkäufe nur dem Zufall zuzuschreiben sind. Üblicherweise verwerfen wir die Annahme, dass es keine Änderung gegeben hat, wenn die Wahrscheinlichkeit für das beobachtete Ergebnis unter 5% liegt. Mit andern Worten schliessen wir daraus, dass das überarbeitete Design tatsächlich besser ist.

Wie das Beispiel zeigt, kann man selbst einen 1%igen Anstieg der Verkäufe statistisch signifikant feststellen - immer vorausgesetzt, dass es genügend Besucher auf einer Website gibt. Wenn man die Verkäufe um 2% steigern kann, dann kriegt man schon mit 340'000 Nutzern signifikante Resultate; ein 10%-Anstieg wäre bei nur 14'000 Nutzern signifikant.

Wen kümmert ein bescheidener 1%-Anstieg der Verkäufe? Nun ja, für Amazon.com mit Verkäufen von 6,9 Mrd.$ (2004) macht diese Steigerung immerhin 69 Mio.$ aus. Zugegeben, Amazon ist die grösste Firma, doch auch wenn wir kleinere Sites betrachten, wie z.B. eBags.com, mit Verkäufen in Höhe von ca. 40 Mio.$, dann erreicht man mit 1% noch 400'000$. - Da zahlt es sich noch lange aus, einen Graphikdesigner eine Stunde mit der Vergrösserung der Schaltfläche zu beschäftigen und das bisschen Programm-Code zum Sammeln der Daten zu schreiben.

eBags wird monatlich von 3 Mio. Besuchern aufgesucht. Wenn sie also allen Nutzern die grössere Schaltfläche zeigen, dann dauert es 2 Wochen, bis sie genügend Daten haben. Wenn eBags einen wirklichen A/B-Test durchführt, bei dem der einen Hälfte der Besucher die grössere und der andern Hälfte die ursprüngliche Schaltfläche gezeigt wird, dann würde die Untersuchung einen vollen Monat beanspruchen. (Dieser sogenannte Split-Test wird empfohlen, um externe Faktoren zu berücksichtigen: eine Website, die Gepäckstücke feil bietet, wird z.B. zur Ferienzeit mehr verkaufen.

Wie bereits im im Hauptartikel oben besprochen, sind qualitative Nutzerstudien besser geeignet, um grosse Effekte auszumachen. Es ist offensichtlich erstrebenswert, die Verkäufe um 100% statt bloss um 1% zu steigern. Aber früher oder später sind all die leicht erreichbaren Früchte schon geerntet. Wenn die Zeit für kleine Verbesserungen reif ist, dann kann der A/B-Test beweisen, welches Design besser ist, selbst wenn es sich nur um kleine Verbesserungen handelt.

 

© Deutsche Version von Jakob Nielsens Alertbox. Institut für Software-Ergonomie und Usability AG. Alle Rechte vorbehalten.

Kommentare auf diesen Beitrag

    Keine Kommentare

Kommentar hinzufügen

Die mit * gekenzeichneten Felder sind zwingend auszufüllen