|
Bei einem A/B-Test lässt man zwei unterschiedliche
Designvarianten auf die Welt los und schaut, welche besser
abschneidet. Jahrzehntelang wurde diese Methode in der
Direktwerbung eingesetzt: Firmen teilen die Empfänger von
Massenwerbebotschaften häufig in Gruppen auf, die unterschiedliche Versionen
des Rundschreibens erhalten. A/B-Tests erfreuen sich auch auf dem Web zunehmender
Verbreitung, wo es einfach ist, unterschiedlichen Besuchern
abweichende Designs vorzuführen.
Manchmal handelt es sich bei A und B um zwei Designs, die
in direkter Konkurrenz zueinander stehen und die dann jeweils
einer Hälfte der Besucher angezeigt werden. Andere Male
handelt es sich bei A um die aktuelle und bei B um eine neue,
gewagte oder experimentelle Version, die dann nur einem
kleinen Prozentsatz der Besucher vorgeführt wird, bis sie
sich bewährt hat.
Vorteile
Gegenüber anderen Methoden haben A/B-Tests vier grosse
Vorteile:
- Sie messen das tatsächliche Verhalten Ihrer
Kunden im realen Einsatz. Sie können mit Gewissheit
folgern, dass Version B in Zukunft allen Besuchern
angezeigt werden soll, nachdem Sie mit B mehr Verkäufe
als mit A gemacht haben.
- A/B-Tests können sehr geringe Leistungsunterschiede mit
statistischer Signifikanz messen, da man tonnenweise
Verkehr auf ein einzelnes Design leiten kann. Im unten
angefügten Kästchen können Sie nachlesen, wie
man zwischen zwei Designs einen Unterschied von nur 1% in
den Verkäufen messen kann.
- A/B-Tests können allfällige Widersprüche zwischen
bestehenden Richtlinien oder qualitativen
Usability-Resultaten auflösen, indem sie messen,
was unter den gegebenen Umständen mehr Gewicht hat. Wenn
eine E-Commerce-Website seine Besucher zum Beispiel an
prominenter Stelle dazu auffordert, einen Rabatt-Coupon
einzulösen, dann werden sich gemäss unseren Erfahrungen
mit Nutzertests jene Besucher, die über keinen Coupon
verfügen, grauenhaft darüber aufregen, dass sie mehr als
andere bezahlen sollen. Zugleich aber handelt es sich bei
Coupons um ein gutes Marketing-Instrument, und die
Usability für Leute mit Coupon wird natürlich
vermindert, wenn das Feld für die Eingabe des
Rabatt-Codes nicht leicht zugänglich ist. Bei A/B-Tests
auf E-Commerce-Sites, wobei je eine Version mit und eine
ohne das Rabatt-Coupon-Feld getestet wurde, stellte sich
heraus, dass die Gesamtverkaufszahlen um 20-50% höher
liegen, wenn auf dem unmittelbaren Weg zur Kasse keine Aufforderung zur Eingabe des Rabatt-Codes erfolgt.
Demnach lautet also die generelle Richtlinie: Vermeiden
Sie ein prominentes Feld zur Eingabe eines Rabatt-Codes.
Dennoch könnte es sein, dass gerade Ihre Site eine
Ausnahme darstellt und Coupons mehr helfen als schaden.
Das können Sie ja selbst leicht herausfinden, und zwar
durch einen A/B-Test, der Ihrem speziellen Umfeld gerecht
wird.
- A/B-Tests sind billig: Wenn Sie erst einmal beide
Designalternativen (bzw. die neue, die Sie gegen das
bestehende Design testen möchten) gestaltet haben, dann
müssen Sie nur noch beide auf den Server laden und ein
kleines Stück Software kreieren, die dafür sorgt, dass
die Besucher abwechslungsweise die eine oder die andere
Version vorgesetzt bekommen. Im Normalfall müssen Sie
zudem auf Besucherseite Cookies setzen, damit Ihre Nutzer
beim nächsten Besuch wieder dieselbe Version angezeigt
bekommen und nicht unter einem stetig ändernden Design zu
leiden haben. Auch das ist ja einfach zu bewerkstelligen.
Es braucht nicht extra einen Usability-Spezialisten, der
dabei das Verhalten der Nutzer beobachtet oder
komplizierte Fragen zum Interaktionsdesign analysiert. Sie
brauchen nur abzuwarten, bis sich genug Material für die
Statistik angesammelt hat, und sich dann für das Design
zu entscheiden, das die besseren Werte liefert.
Grenzen von A/B-Tests
Angesichts dieser überwältigenden Vorteile: Warum
benützen wir denn nicht gleich für alle Projekte A/B-Tests?
Weil die Nachteile von A/B-Tests häufig deren Vorteile
übertreffen.
Zunächst einmal können A/B-Tests nur für Projekte mit
einem einzigen klaren Ziel zum Einsatz gelangen, das
heisst für solche mit einem einzelnen Schlüsselindikator
(KPI: key performance indicator) als Messgrösse. Zudem
muss dieses Ziel mit einem Computer messbar sein, und
zwar durch das Zählen einfacher Aktionen der Nutzer.
Beispiele für solche Aktionen sind unter anderem:
- die Verkäufe einer E-Commerce-Website.
- die Anzahl der Besucher, die sich für einen
E-Mail-Newsletter einschreiben.
- die Anzahl der Besucher, die ein Online-Bankkonto
eröffnen.
- die Anzahl der Besucher, die sich ein Weissbuch
runterladen, um einen Verkaufsanruf bitten oder sonst
irgendwie einen offensichtlichen Schritt in Richtung
Verkauf machen.
Leider kommt es selten vor, dass solche Aktionen das
alleinige Ziel einer Website sind. Wohl spielt im E-Commerce
der Wert der Verkäufe die zentrale Rolle. Doch Websites, die
die Verkäufe nicht online abwickeln, können nicht behaupten,
dass irgendeine einzelne Aktion auf Nutzerseite das einzige
ist, was zählt. Natürlich ist es gut, dass ein Nutzer ein
Formular zur Kontaktaufnahme ausfüllt.
Aber es ist ebenfalls nützlich, wenn er die Website mit einem
guten Eindruck von Ihrem Produkt verlässt und Ihre Firma bei
einem späteren Kauf in die engere Auswahl der zu
kontaktierenden Anbieter nimmt. Wenn Ihr einziges
Entscheidungskriterium für ein Design z.B. ist, ob damit mehr
Weissbücher runtergeladen werden, dann höhlen Sie damit
möglicherweise andere Teile Ihres Geschäfts aus.
Für viele Websites sind die eigentlichen Ziele nicht
durch Nutzeraktionen auf dem Server messbar. Steigerungen
der Markenreputation oder das Ausmass, in dem Ihre Website Sie
bei der Öffentlichkeitsarbeit unterstützt, lassen
sich nicht daran messen, ob die Besucher auf einen
bestimmten Knopf drücken oder nicht. Die durch Ihre Online-PR
ausgelöste Medienberichterstattung kann durch eine
Medienbeobachtungsagentur gemessen werden. Aber auch die kann
Ihnen nicht sagen, ob der Journalist Ihre Website besucht
hatte, bevor er Ihren CEO wegen eines Zitats anrief.
Ähnlich verhält es sich mit Newslettern: Sie können
einfach messen, wie viele Nutzer sich für den
E-Mail-Newsletter einschreiben. Aber Sie erfahren dabei nichts
über die ebenfalls wichtige Frage, wie
die Leute den Inhalt Ihres Newsletters lesen, wenn Sie sie
nicht dabei beobachten, wie sie die Post öffnen.
Eine zweite Kehrseite von A/B-Tests ist die Tatsache, dass
sie nur mit fixfertigen Designs funktionieren. Es ist
billig, ein Design zu testen, wenn es schon steht und
läuft, aber wir wissen alle, dass die Implementierung
eines Designs eine lange Zeit beanspruchen kann. Bevor man es
realen Kunden auf der Website präsentieren kann, muss man
das experimentelle Design von all seinen Programmfehlerchen
befreien. Ein A/B-Test eignet sich daher nur für ganz wenige
kleine Ideenumsetzungen.
Mit Papier-Prototypen dagegen
lassen sich innerhalb eines Tages mehrere unterschiedliche
Ideen ausprobieren. Natürlich erhalten Sie durch einen
Prototyp-Test nur qualitative Daten. Dafür aber helfen sie
dabei, einige wirklich schlechte Ideen schnell zu begraben und
den Fokus auf die guten zu legen. Langjährige Erfahrung
lehrt, dass wiederholtes, kontinuierliches Herumschleifen am
Design zu wirklich überlegenen Benutzeroberflächen führt.
Wenn nun aber jeder einzelne dieser iterativen Schritte viel
Zeit und Ressourcen für sich beansprucht, werden Sie letztlich zuwenig Schritte
ausführen, um einem Design wirklich den Feinschliff zu verpassen.
Ein möglicher Kompromiss sieht vor, dass man zunächst
Papier-Prototypen für die Entwicklung der Ideen verwendet.
Wenn dann etwas Grossartiges vorliegt, kann man es in der
letzten Phase einem A/B-Test unterwerfen, um herauszufinden, ob
es wirklich besser ist als die bereits vorhandene Website.
Aber A/B-Tests können nicht die treibende Kraft in einem
Designprojekt sein.
Die kurzfristige Sicht
Was den A/B-Test attraktiv macht, ist die Zahl, die
man Resultat des Tests erhält. In der Regel drückt sie
irgendeine
Handlung des Nutzers aus, wie z.B. einen Kaufabschluss. Theoretisch
spricht nichts dagegen, als Messgrösse ein
langfristiges Ergebnis wie beispielsweise den Gesamtwert eines Kunden
über den Zeitraum von 5 Jahren zu verwenden. In der Praxis
jedoch behält man einzelne Kunden nicht so lange im Auge.
Niemand hat Zeit und Musse, 5 Jahre abzuwarten, bis er
bestimmen kann,
ob A oder B besser ist.
Wenn man seine Entscheidungen auf kurzfristige Zahlen
abstellt, besteht die Gefahr, dass man auf Abwege gerät. Ein
häufiges Beispiel ist folgendes: Sollten Sie eine
Promotionskampagne auf Ihre Homepage oder auf einzelne
Produktseiten platzieren? Wenn Sie nicht gerade etwas bewerben, was der
Nutzer aktuell tatsächlich benötigen könnte, wird jede
zusätzlich Werbung den Bildschirm weiter zerstückeln und
dadurch die Usability der Site senken.
Wenn ich auf Usability-Probleme im Zusammenhang mit Werbung hinweise,
erhalte ich oft das Gegenargument, die Werbung würde
zusätzliche Einnahmen für den beworbenen Gegenstand oder
Service erzeugen. Sicher: Jedesmal, wenn Sie etwas irgendwo
prominent hinstellen, wird es zu mehr Verkäufen führen. Die
Frage ist allerdings, ob das Ihrer Website in anderen
Bereichen schadet.
Manchmal hilft hier ein A/B-Test, und zwar, wenn man
anstelle der Verkäufe des beworbenen Produkts die
Gesamtverkäufe betrachtet. Andere Male dagegen wird der
A/B-Test einem fehlleiten, weil er die negativen Auswirkungen
nicht sofort erfasst. Eine zerstückelte Site ist z.B. weniger
angenehm zu nutzen und kann die Loyalität der Kunden senken.
Die Besucher werden ihre gerade aktuellen Käufe vielleicht noch hier
erledigen, doch nur mit einer kleinen
Wahrscheinlichkeit wieder kommen. Selbst geringe derartige Effekte
bauen ihren Kundenpool stufenweise ab, denn die Kunden suchen nach andern, besseren Sites.
(Auf diese Weise haben unübersichtlichere Suchmaschinen über
die letzten 4 Jahre kontinuierlich an Google verloren.)
Keine Einsichten ins Nutzerverhalten
Das grösste Problem mit A/B-Tests ist aber, dass man nicht
genau weiss, warum man die Resultate erhalten hat. Sie
beobachten die Nutzer nicht und haben auch keine Möglichkeit,
nach ihren Gedankengängen zu fragen. Sie wissen nur, dass
gemäss der Statistik mehr Leute mit Design A eine gewünschte
Handlung ausgeführt haben als mit Design B. Sicher spricht
das für Design A - aber es hilft Ihnen nicht bei weiteren
Designfragen.
Nehmen wir an, Sie haben zwei unterschiedliche Grössen
einer Schaltfläche zum Bestellen getestet und dabei festgestellt,
dass mit der grösseren 1% mehr Verkäufe getätigt wurden. Heisst das nun, dass Sie mit einer noch
grösseren Schaltfläche noch mehr verkaufen würden? Oder
könnte es nicht sein, dass eine Schaltfläche, die von der Grösse
her zwischen den beiden getesteten liegt, die Verkäufe gar um 2%
steigern würde? Sie wissen es nicht. Um das herauszufinden,
gibt es nichts anderes, als nochmals eine Runde mit einer
andern Auswahl der Schaltflächen zu starten.
Natürlich haben Sie auch keinerlei Ahnung, ob andere
Anpassungen eventuell sogar noch mehr bringen - so zum
Beispiel ein Farbwechsel oder eine Umbenennung der
Schaltfläche. Vielleicht würde auch eine Umpositionierung
oder eine Grössenänderung der Beschriftung zu einem ähnlichen oder besseren
Resultat führen. Im Grunde wissen Sie überhaupt nicht, warum
die Version B nicht optimal war, womit Sie weiterhin bloss
raten können, was sonst noch helfen könnte. Nach jeder
Raterunde müssen Sie wieder neue Versionen implementieren und
warten, bis sich genug Datenmaterial angesammelt hat, um Ihren
Vorschlag zu verwerfen oder anzunehmen.
Am allerschlimmsten ist, dass ein A/B-Test nur Daten
über das gerade getestete Element liefert. Es
ist keine offene Methode wie ein Nutzertest, wo Nutzer
manchmal über Sachen stolpern, die Sie nie erwartet hätten.
Häufig tauchen beispielsweise Fragen des Vertrauens auf, wo
Nutzer einfach kein Geschäft mit Ihnen machen möchten, weil
Ihre Website Ihre Glaubwürdigkeit unterminiert.
Grössere Probleme, wie z.B. Vertrauensdefizite oder
nichtssagende Produktseiten, führen häufig zu Effekten in der
Grössenordnung von 100% und mehr. Das bedeutet, dass Ihre
Verkäufe sich verdoppeln, wenn derartige Probleme
aufgedeckt und behoben werden. Wenn Sie dagegen Ihre ganze
Zeit fürs Herumschrauben an 1-2%igen Verbesserungen
aufwenden, übersehen Sie leicht jene Verbesserungen
um 100%, die von qualitativen Einsichten in
Bedürfnisse, Wünsche und Ängste der Nutzer stammen.
Kombination der Methoden
Ein A/B-Test hat mehr Probleme als Vorteile. Sie sollten
ihn daher nicht gleich als erstes einsetzen, wenn Sie sich an
die Steigerung der Konversionsrate Ihrer Website machen.
Sicher sollte er in einem Projekt auch nie die einzige Methode
sein. Die qualitative Beobachtung des Anwenderverhaltens ist
schneller und sorgt für tiefere Einsichten. Qualitative
Studien sind auch weniger den Fehlern
und Tücken quantitativer Untersuchungen unterworfen.
A/B-Tests haben dennoch auch einige Vorzüge und
stellen eine gute Ergänzung zu qualitativen Studien dar. Wenn
sich Ihre Firma einmal wirklich der Usability verschrieben hat
und systematisch Nutzer in den Designprozess einbezieht, dann hat der A/B-Test sicherlich seinen Platz im
Methoden-Repertoire.
Wie man durch A/B-Tests
einen Anstieg der Verkäufe um 1% misst
Betrachten wir z.B. eine E-Commerce Website mit einer
derzeitigen Konversionsrate von 2%. Wir
wollen diese 2% nun mit einer grösseren "Kaufen"-Schaltfläche
erhöhen. Also kreieren wir eine Testversion der Site
mit einer grösseren Schaltfläche und konfrontieren 1,5
Mio. Besucher damit. In der Folge registrieren wir 30'300
Verkäufe statt die erwarteten 30'000. Die Verkäufe
sind also um 1% gestiegen, was einer Konversionsrate von
neu 2,02% entspricht.
Ist nun grösser wirklich besser? Nun, wäre die
Konversionsrate bei 2,00% geblieben, dann hätte die
Wahrscheinlichkeit, mindestens 30'300 Verkäufe
aufzuzeichnen, nur 4% betragen. Daher ist es
unwahrscheinlich, dass die zusätzlichen 300 Verkäufe
nur dem Zufall zuzuschreiben sind. Üblicherweise
verwerfen wir die Annahme, dass es keine Änderung
gegeben hat, wenn die Wahrscheinlichkeit für das
beobachtete Ergebnis unter 5% liegt. Mit andern Worten
schliessen wir daraus, dass das überarbeitete Design
tatsächlich besser ist.
Wie das Beispiel zeigt, kann man selbst einen 1%igen Anstieg der Verkäufe statistisch
signifikant feststellen - immer vorausgesetzt, dass es genügend Besucher auf einer Website
gibt. Wenn man
die Verkäufe um 2% steigern kann, dann kriegt man schon
mit 340'000 Nutzern signifikante Resultate; ein 10%-Anstieg wäre bei nur 14'000
Nutzern signifikant.
Wen kümmert ein bescheidener 1%-Anstieg der
Verkäufe? Nun ja, für Amazon.com mit
Verkäufen von 6,9 Mrd.$ (2004) macht diese Steigerung
immerhin 69 Mio.$ aus. Zugegeben, Amazon ist die
grösste Firma, doch auch wenn wir kleinere Sites
betrachten, wie z.B. eBags.com, mit Verkäufen in Höhe
von ca. 40 Mio.$, dann erreicht man mit 1% noch
400'000$. - Da zahlt es sich noch lange aus, einen
Graphikdesigner eine Stunde mit der Vergrösserung der
Schaltfläche zu beschäftigen und das bisschen
Programm-Code zum Sammeln der Daten zu schreiben.
eBags wird monatlich von 3 Mio. Besuchern aufgesucht.
Wenn sie also allen Nutzern die grössere Schaltfläche
zeigen, dann dauert es 2 Wochen, bis sie genügend Daten
haben. Wenn eBags einen wirklichen A/B-Test durchführt,
bei dem der einen Hälfte der Besucher die grössere und
der andern Hälfte die ursprüngliche Schaltfläche
gezeigt wird, dann würde die Untersuchung einen vollen
Monat beanspruchen. (Dieser sogenannte Split-Test wird
empfohlen, um externe Faktoren zu berücksichtigen: eine
Website, die Gepäckstücke feil bietet, wird z.B. zur
Ferienzeit mehr verkaufen.
Wie bereits im im Hauptartikel oben besprochen, sind qualitative Nutzerstudien
besser geeignet, um grosse
Effekte auszumachen. Es ist offensichtlich
erstrebenswert, die Verkäufe um 100% statt bloss um
1% zu steigern. Aber früher oder später sind all die
leicht erreichbaren Früchte schon geerntet. Wenn die
Zeit für kleine Verbesserungen reif ist, dann kann der
A/B-Test beweisen, welches Design besser ist, selbst
wenn es sich nur um kleine Verbesserungen handelt. |
Mehr dazu
An der User Experience 2005 in Boston und London wird an
einem ganztägigen Tutorial der Norman Nielsen Group unter
anderem auf folgende Themen eingegangen:
|