Wie viele Testnutzer braucht man für eine Usability-Studie?
Die Antwort ist fünf, ausser dann, wenn nicht. Die meisten Argumente dafür, mehr Testteilnehmer einzusetzen, sind falsch, aber einige Tests sollten grösser und andere kleiner sein.
by Jakob Nielsen (deutsche Übersetzung) - 04.06.2012
Wenn Sie eine konkrete Zahl haben wollen, ist die Antwort einfach: Testen Sie fünf Nutzer in einer Usability-Studie (engl.). So finden Sie fast genau so viele Usability-Probleme, wie Sie finden würden, wenn Sie mit viel mehr Testteilnehmern arbeiten würden.
Die Antwort ist die gleiche, seit ich im Jahr 1989 damit begonnen habe, für sparsame Usability-Techniken zu werben. Es macht keinen Unterschied, ob Sie Websites, Intranets, PC-Anwendungen oder mobile Anwendungen testen. Mit fünf Nutzern sind Sie fast immer sehr nah am maximalen Kosten-Nutzen-Verhältnis für Nutzertests.
Aber wie überall, wo der menschliche Faktor eine Rolle spielt, gibt es Ausnahmen:
- Quantitative Studien (auf Statistik ausgerichtet, nicht auf Einblicke): Testen Sie mindestens 20 Nutzer, um statistisch signinfikante Zahlen zu erhalten; knappe Konfidenzintervalle erfordern sogar noch mehr Nutzer.
- Card-Sorting: Testen Sie mindestens 15 Nutzer.
- Eyetracking: Testen Sie 39 Nutzer, wenn Sie stabile Heatmaps erreichen wollen.
Diese Ausnahmen sollten Ihnen aber jedoch nicht zu viel Schlaf rauben: Die Nutzerforschung sollte weit überwiegend qualitativ sein, also auf das Sammeln von Einsichten abzielen, wie Ihr Design funktioniert und nicht auf das Sammeln von Zahlen, um Menschen mit PowerPoint zu beeindrucken.
Das Hauptargument für kleine Tests ist die Rentabilität: Die Testkosten erhöhen sich mit jedem weiteren Studienteilnehmer, während sich die Ergebnisse schnell dem Punkt nähern, an dem die Rendite abnimmt. Es gibt so gut wie keinen zusätzlichen Nutzen, wenn man mehr als fünf Teilnehmer durch die gleiche Studie schleust; mit einem grösseren N fällt die Rentabilität wie ein Stein zu Boden.
Und wenn Sie ein grösseres Budget haben? Super! Geben Sie es für weitere Studien aus und nicht für mehr Teilnehmer pro Studie.
Leider bestehen die meisten Unternehmen auf grösseren Tests. Während der Usability-Week-Konferenz habe ich 27 Teilnehmer zu den Methoden in ihrem Unternehmen befragt. Nach den Antworten wurden im Schnitt 11 Nutzer pro Nutzertestrunde getestet - mehr als doppelt so viele wie empfohlen. Das zeigt deutlich, dass ich die Vorteile von Nutzertests mit kleinem N besser erklären muss.
(Schwache) Argumente für mehr Testteilnehmer
"Eine grosse Website hat Millionen von Nutzern." Das macht für die Grösse der Stichprobe keinen Unterschied, selbst wenn Sie Statistiken ermitteln. Eine Meinungsumfrage benötigt die gleiche Anzahl an Befragten, egal ob es um den neuen Bürgermeister von Pittsburgh oder den Präsidenten von Frankreich geht. Die Varianz bei statistischen Erhebungen ist abhängig von der Grösse der Stichprobe und nicht von der Grösse der Gesamtpopulation, aus der die Stichprobe gezogen wurde. Bei Nutzertests konzentrieren wir uns auf die Funktionalität einer Website, um zu sehen, welche Designelemente einfach oder schwer nutzbar sind. Die Bewertung der Qualität eines Designelements ist unabhängig davon, wie viele Menschen es verwenden. (Dagegen sollte die Entscheidung, ob eine Design-Schwachstelle behoben werden soll oder nicht, von der Anzahl der Nutzer abhängen: Es ist vielleicht die Mühe nicht wert, eine Funktion zu verbessern, die nur wenige Nutzer hat; besser konzentriert man die Anstrengung darauf, etwas umzuprogrammieren, das Millionen nutzen.)
"Eine grosse Website hat hunderte von Funktionen." Dies ist ein Argument für die Durchführung vieler verschiedener Tests - jeder fokussiert auf eine kleine Anzahl von Funktionen - und nicht dafür, in jedem Test mehr Nutzer einzusetzen. Sie können von einem Nutzer nur verlangen, eine Handvoll Funktionen zu testen, bevor der arme Probant die Waffen streckt. Ja, insgesamt brauchen Sie viele Nutzer, um ein Design mit vielen Funktionen zu testen, aber Sie müssen diese Nutzer auf viele Studien verteilen, von denen jede einzelne sich auf einen bestimmten Teil Ihrer Forschungsfragen konzentriert.
"Wir haben viele verschiedene Zielgruppen." Das kann tatsächlich ein legitimer Grund sein, eine grössere Nutzergruppe zu testen, da Sie Testteilnehmer aus jeder Zielgruppe benötigen. Dieses Argument ist jedoch nur dann stichhaltig, wenn sich die unterschiedlichen Nutzergruppen auch tatsächlich völlig anders verhalten. Zu unseren Projekten gehören zum Beispiel
- eine medizinische Website, die sowohl Ärzte als auch Patienten anspricht,
- eine Auktions-Website, auf der man sowohl einkaufen wie verkaufen kann.
Sind die Nutzer und ihre Aufgaben so unterschiedlich, führen Sie am besten einen besonderen Test für jede Nutzergruppe durch und brauchen dann knapp fünf Nutzer pro Gruppe. Normalerweise reichen auch drei bis vier Nutzer, da sich das Nutzererlebnis der beiden Gruppen teilweise deckt. Nehmen wir eine Finanz-Website, die sowohl Einsteiger als auch fortgeschrittene und erfahrene Investoren anspricht. Hier können Sie pro Gruppe drei Nutzer testen und somit insgesamt neun Teilnehmer einsetzen. 15 Nutzer werden Sie nicht brauchen, um die Usability Ihrer Website zu beurteilen.
"Die Website generiert so viel Umsatz, dass selbst das kleinste Usability-Problem inakzeptabel ist." Wohlhabende Unternehmen haben sicherlich Rentabilitätsgründe, mehr Geld für die Usability auszugeben. Selbst wenn sie "zu viel" für jede Qualitätsverbesserung ausgeben, bekommen sie trotzdem mehr zurück, da so grosse Geldsummen durch die Nutzeroberfläche fliessen. Doch selbst das Designprojekt mit dem grössten Budget wird die Rentabilität optimieren wollen, also die Studien klein halten und entsprechend mehr Studien durchführen, als es sich ein weniger gut ausgestattetes Projekt leisten kann.
Im Kern der Sache geht es darum: Es ist in Ordnung, Usability-Probleme im Design beiseite zu lassen, wenn Sie einen iterativen Designprozess durchlaufen, in dem Sie ständig weitere Versionen entwerfen und testen. Alles, was jetzt noch nicht korrigiert ist, wird beim nächsten Mal dran sein. Wenn Sie viele Probleme beheben müssen, planen Sie einfach viele Durchläufe ein. Das Endergebnis ist hohe Qualität (und ein entsprechend höherer wirtschaftlicher Nutzen) - aber wegen der zusätzlichen Durchläufe und nicht, weil jedes Mal mehr Nutzer getestet wurden.
83 Fallstudien
Das folgende Diagramm fasst 83 kürzlich durchgeführte Usability-Beratungsprojekte der Nielsen Norman Group zusammen. Jeder Punkt steht für eine Usability-Studie und zeigt, wie viele Nutzer getestet wurden und wie viele Usability-Ergebnisse wir dem Kunden mitgeteilt haben. (Das Diagramm zeigt nur "normale" qualitative Studien; wir haben auch Wettbewerbsstudien, Benchmark-Messungen und andere Arten von Studien durchgeführt, die hier nicht gezeigt werden.)
y-Achse: Anzahl der Usability-Ergebnisse
x-Achse: Anzahl der Testnutzer (bei Beratungsprojekten der Nielsen Norman Group)
Es gibt eine kleine Korrelation, aber sie ist winzig. In diesen vielen Projekten brachte das Testen von mehr Nutzern nicht merklich mehr Einsichten.
Warum setzen wir überhaupt mehr Nutzer ein, obwohl ich doch an meine eigenen Forschungsresultate glaube, die die Überlegenheit eines Tests mit kleinen N zeigen? Aus drei Gründen:
- Einige Kunden wollten grössere Studien haben, um intern eine höhere Glaubwürdigkeit zu erzielen. Wenn der Sponsor einer Studie Vorstandsmitgliedern, die nichts von Usability verstehen, Testergebnisse präsentiert, sind die Resultate leichter zu verdauen, wenn mehr Nutzer getestet wurden. (Würde das Management den eigenen Angestellten vertrauen, könnte viel Geld gespart werden.)
- Einige Designprojekte hatten viele Zielgruppen und die Unterschiede im erwarteten (oder zumindest vermuteten) Verhalten waren gross genug, um die Ausgaben für das Testen zusätzlicher Nutzer zu rechtfertigen.
- Zu guter Letzt begründete die Tatsache, dass diese Projekte Beratungsprojekte waren, den Einsatz von mehr Nutzern, so dass wir viele Studien mit rund acht Nutzern durchgeführt haben. Rentabilität ist das Verhältnis von Kosten und Nutzen. Engagieren Sie einen Berater, sind die eigentlichen Kosten höher als nur das Beraterhonorar, da der Kunde erst den richtigen Berater finden und mit ihm das Projekt aushandeln muss. Mit dieser höheren Investition geht der Wunsch nach höherem Nutzen einher.
Der letzte Punkt macht auch klar, warum die wahre Antwort auf die Frage "Wie viele Nutzer?" manchmal auch kleiner als fünf sein kann. Wenn Sie einen UX-Prozess im Agile-Stil und mit wenig Overhead haben, ist Ihre Investition in jede Studie so gering, dass die Kosten-Nutzen-Rechnung schon bei einem geringeren Nutzen optimal wird. (Es widerspricht vielleicht der Intuition, am Ende mehr Geld verdient zu haben, obwohl jede Studie weniger Geld einbringt, aber das kommt daher, dass der kleine Overhead es Ihnen erlaubt, so viele Studien durchzuführen, dass die Summe der zahlreichen kleinen Vorteile ein grosses Ergebnis einbringt.)
Für Projekte mit wirklich kleinem Overhead kann es optimal sein, nur zwei Nutzer pro Studie zu testen. Für andere Projekte können acht Nutzer - oder manchmal noch mehr - die bessere Lösung sein. Für die meisten Projekte sollten Sie aber beim bewährten Muster bleiben: fünf Nutzer pro Usability-Test.
© Deutsche Version von Jakob Nielsens Alertbox. Institut für Software-Ergonomie und Usability AG. Alle Rechte vorbehalten.
Kommentare auf diesen Beitrag