Die Beweisstärke der Nutzerforschung
Ergebnisse zur Usability, die aus einer breiten Basis unterschiedlicher Studien entnommen wurden, haben eine höhere Glaubwürdigkeit als Ergebnisse von Studien mit vielen Nutzern, die aber nur einem einzigen Reiz ausgesetzt waren.
by Jakob Nielsen (deutsche Übersetzung) - 14.04.2013
Wann können Sie sich auf Empfehlungen verlassen, die auf Usability-Studien oder anderer Nutzerforschung basieren?
Diese Frage ist in zwei Fällen besonders relevant:
- beim Planen Ihrer eigenen Forschung. Sie müssen die Investition in Forschung gut planen, damit Sie den maximalen Nutzen für Ihr Projekt erhalten. So erhöhen Sie auch die Wahrscheinlichkeit, dass Sie am Ende ein profitableres Design erhalten.
- beim Lesen anderer Studien. Es ist wichtig zu wissen, inwieweit Sie sich auf die Ergebnisse von anderen verlassen können. Wie sicher ist es, wenn Sie Ihre Designentscheidungen auf Forschungen Dritter aufbauen? Welcher Studie sollten Sie vertrauen, wenn sich die Ergebnisse widersprechen?
Glücklicherweise ist die Antwort in beiden Fällen fast gleich. Sie sollten der gleichen Art von Forschung vertrauen, in die Sie auch investieren sollten - also Studien, bei denen die Ergebnisse aus einer breit gefächerten Basis stammen.
Der grosse Unterschied zwischen den beiden Situationen liegt darin, dass Rentabilitätserwägungen Ihnen beschränkte Investitionen in Ihre eigenen Studien vorgeben. Die Grösse der Stichproben und andere Kosten, die entstehen, wenn man unbedingt sicher sein will, lohnen sich einfach nicht. Daher sollten Sie die Empfehlungen aus der Forschung auch dann umsetzen, wenn zum Beispiel eine statistische Analyse vermuten lässt, dass es eine 10%ige Fehlerquote geben könnte. Es ist schliesslich besser, in 90% der Fälle das richtige Design zu haben, als im Dunkeln zu tappen und das Design ganz ohne Beihilfe der Forschung zu entwickeln.
(Machen Sie keinen Fehler: Wenn Sie von Ihrer internen Forschung perfekte Resultate verlangen, bekommen Sie gar keine Forschungsergebnisse. Niemand hat das Budget, bei jeder kleinen Design-Entscheidung ausgiebige Studien durchzuführen; man hat nur die Wahl zwischen akzeptabler - wenn auch nicht perfekter - Forschung und gar keiner. Wählen Sie die Option, die Ihnen wenigstens einige Daten liefert, denn das ist immer noch besser als zu raten.)
Mehr ist besser?
Der eine Faktor, den man meist in Betracht zieht, wenn man Ergebnisse einer Studie betrachtet, ist die Stichprobengrösse, normalerweise bekannt als N. Wie viele Menschen haben an der Studie teilgenommen? Ein weiterer Aspekt ist die Höhe der statistischen Signifikanz, oft bezeichnet als p.
Allerdings sind ein grosses N oder ein kleines p ein miserabler Indikator für die Validität der Studienergebnisse.
Sicher, man kann statistische Signifikanz genau berechnen, aber das sagt Ihnen nur etwas, das nicht besonders wichtig ist: die Wahrscheinlichkeit, bei einer Wiederholung des gleichen Experiments das gleiche Resultat zu erhalten.
Leider sagt das überhaupt nichts darüber aus, ob das Experiment richtig durchgeführt wurde oder ob es für Ihr Designproblem eine Voraussagekraft hat. Und diese beiden Aspekte sind essentiell, wenn es darum geht, ob Sie den Ergebnissen vertrauen können.
Statistisch signifikante Forschungsergebnisse sind anfällig für drei wichtige Probleme:
Die Studie wurde falsch durchgeführt. Fast alle Usability-Studien haben Schwächen. Das häufigste Problem ist das Beeinflussen der Befragten, zum Beispiel in dem man zu viel redet. Manchmal ist die Studie auch schlecht gestaltet; zum Beispiel zeigen viele Eyetracking-Studien den Teilnehmern einen statischen Bildschirmausdruck und zeichnen auf, wie diese das Bild ansehen. Aber die Art, wie Menschen ein einzelnes Bild betrachten, unterscheidet sich deutlich von der Art, wie sie eine Abfolge von Bildschirmanzeigen betrachten, wie sie beim Navigieren durch eine Website auftreten. Wenn die Methodik unangemessen oder einfach falsch war, ist es völlig egal, wenn Sie die gleichen (falschen) Ergebnisse mit hoher Wahrscheinlichkeit erneut erhalten, wenn Sie die gleiche (falsche) Studie ein zweites Mal durchführen.
Die Studie ist nicht verallgemeinerbar. Fast alle akademischen Studien setzen Studenten als Testteilnehmer ein. Wenn Sie aber nicht gerade eine Website für Studenten entwickeln, heisst das, dass die Ergebnisse für Ihre Zielgruppe irrelevant sein können. Selbst wenn eine Studie Nutzer rekrutiert hat, die ein ähnliches Profil wie Ihre Kunden haben, kann es immer noch sein, dass sich die Art der Aufgaben und Designs von Ihren Anforderungen unterscheiden. Usability ist hochgradig kontextabhängig; was für die eine Gruppe von Nutzern und Aufgaben gut ist, kann für andere Menschen, die etwas anderes machen, furchtbar sein.
Die Studie war ein Glückstreffer. Eine Studie kann behaupten, dass sie mit einem Wert von p< 0.05 statistisch signifikant ist - also nur eine 5%ige Wahrscheinlichkeit hat, dass die Ergebnisse purer Zufall waren. Das klingt ganz gut, bis man bemerkt, dass jeden Tag auf der Welt mehr als 20 Usability-Studien durchgeführt werden. Da Veröffentlichung meist verzerrt, hört man nur von der einen Studie, die ein seltsames Ergebnis hatte. Die 19 (oder mehr) anderen Studien, die der Wahrheit viel eher auf die Spur kamen, waren zu langweilig, um veröffentlicht zu werden, denn sie bestätigten nur, was wir schon wussten. (Usability-Resultate verändern sich nicht stark mit der Zeit.)
Die Diversität der Forschung
Anstatt einem grossen N in einer einzigen Studie zu vertrauen, ist es besser, auf Forschungen zu setzen, die eine grosse Bandbreite an Umständen abdecken. Entstammen die Resultate einer breiten Basis, kann man sie besser verallgemeinern und auf Ihre spezielle Situation anwenden - und nicht nur auf die Stimuli der Studie.
Usability-Studien sollten auf verschiedene Arten diversifiziert sein:
- Nutzer: Testen Sie Verbraucher, Geschäftsleute, Führungskräfte, Computerfreaks, Ärzte, Kinder, Teenager, Studenten, Senioren und viele andere Gruppen.
- Fähigkeiten: Testen Sie erfahrene Nutzer, Hochbegabte, Computerneulinge (engl.), Leseschwache usw. und schliessen Sie auch Nutzer mit Behinderungen ein.
- Aufgaben: Einkaufen, Gesundheitsfragen, Nachrichten oder Investitionen verfolgen - die Liste der Aufgaben, die die Leute jeden Tag online durchführen, ist endlos. Wenn Sie zum Beispiel wissen wollen, wie die Menschen suchen, geben Sie ihnen nicht nur eine Suchaufgabe.
- Getestete Firmen oder Websites: grosse und kleine Websites, berühmte Marken und unbekannte Websites.
- Technologie-Plattformen: Nutzeroberflächen mit ausschliesslich Text, grafische Nutzeroberflächen, Mobiltelefone, Tablet-PCs, 3D.
- Langzeit-orientierte Forschung: Vergleichen Sie Ergebnisse von vor 10-20 Jahren mit heute. Sind sie gleich, gelten sie wahrscheinlich auch noch für die Zukunft.
- International: Testen Sie in vielen Ländern.
- Methodologie: Verifizieren Sie Ergebnisse, in dem Sie verschiedene Methoden der Nutzerforschung kombinieren: Nutzertests, A/B-Tests, Eyetracking, Tagebuchstudien, Feldforschung.
Zu guter Letzt sollten Sie für interne Zwecke Forschungen in verschiedenen Stadien des Lebenszyklus von Produkten durchführen - Studien im Vorfeld, bevor Sie überhaupt etwas entworfen haben, Studien mit den ersten Prototypen, iterative Verbesserungen und Studien nach der Produkteinführung.
In dem Sie eine grosse Auswahl an Studien durchführen, erreichen Sie schliesslich das grosse Ziel, viele Nutzer getestet zu haben. Zum Beispiel hat die Nielsen Norman Gruppe 2'048 Nutzer in 1-zu-1-Usability-Sitzungen getestet. Wichtiger ist, dass wir die Menschen mit 1'524 Websites und Intranets in 14 verschiedenen Ländern, verteilt über Nordamerika, Europa, Asien, Australien und den mittleren Osten, getestet haben. Mit dieser grossen Diversität ist es wahrscheinlich, dass unsere Ergebnisse auch unter Umständen haltbar sind, die über unsere Tests hinausgehen.
Wenn Sie Ihr eigenes Forschungsbudget aufteilen müssen: Verteilen Sie es auf viele kleine Studien. Wenn Sie über Studien von Dritten lesen: Vertrauen Sie eher den Quellen, die weit gestreute Studien durchgeführt haben, als solchen, die eine grosse Anzahl Nutzer in einer einzigen Situation getestet haben, die sich wahrscheinlich gar nicht auf Ihre Bedürfnisse anwenden lässt.
© Deutsche Version von Jakob Nielsens Alertbox. Institut für Software-Ergonomie und Usability AG. Alle Rechte vorbehalten.
Kommentare auf diesen Beitrag