Quantitative Studien: Wie viele Nutzer muss man testen?
Wenn man Usability-Messergebnisse sammelt, liefert ein Test mit 20 Nutzern in der Regel ein einigermassen dichtes Vertrauensintervall.
by Jakob Nielsen (deutsche Übersetzung) - 26.06.2006
Usability können wir mit Hilfe von Qualitätsmetriken definieren wie z. B. Lernzeit, Effektivität, Nutzungseffizienz, Erinnerbarkeit, Anzahl Nutzerfehler und subjektiver Zufriedenheit. Leider sammeln nur wenige Projekte solche Messergebnisse, weil das teuer ist: Man braucht dafür viermal so viele Nutzer wie bei einfachen Nutzertests.
Man braucht so viele Nutzer wegen der erheblichen individuellen Unterschiede in der Nutzerleistung. Wenn man Leute misst, hat man immer welche dabei, die richtig schnell sind, und welche, die richtig langsam sind. Daher muss man diese Messungen über eine ziemlich grosse Anzahl von Beobachtungen mitteln, um die Varianz auszugleichen.
Die Standard-Abweichung bei Web-Usability-Daten
Aus früheren Analysen wissen wir, dass die Nutzerleistung auf Websites einer Normalverteilung folgt. Zum Glück, denn Normalverteilungen sind statistisch recht einfach zu handhaben. Mit Hilfe von zwei Zahlen - dem Mittelwert und der Standard-Abweichung - kann man die Glockenkurve zeichnen, die die Daten repräsentiert.
Ich habe 1520 Messungen der Nutzerleistung (Zeit pro Aufgabe) bei 70 verschiedenen Aufgaben aus einem breiten Spektrum von Websites und Intranets analysiert. Im Durchschnitt aller dieser vielen Studien betrug die Standard-Abweichung 52% der Mittelwerte. Wenn das Lösen einer Aufgabe zum Beispiel im Schnitt 10 Minuten in Anspruch nimmt, dann beträgt die Standard-Abweichung für diese Grösse 5,2 Minuten.
Ausreisser entfernen
Um die Standard-Abweichung zu berechnen, habe ich zuerst die Ausreisser entfernt, die durch äusserst langsame Nutzer entstanden sind. Ist es angebracht, so zu verfahren? In gewisser Hinsicht nicht: Langsame Nutzer sind eine Realität, und man sollte sie berücksichtigen, wenn man die Qualität eines Designs einschätzt. Man sollte sie also nicht vergessen, auch wenn ich empfehle, die Ausreisser aus statistischen Analysen zu entfernen. Analysieren Sie die Testsitzungen der Ausreisser qualitativ und finden Sie heraus, in welcher Weise "Pech" (d. h. schlechtes Design) ihnen eine Falle gestellt hat, um ihre Leistung zu hintertreiben.
Dennoch sollten Sie für die meisten statistischen Analysen die Ausreisser entfernen. Da sie nach dem Zufallsprinzip auftreten, können Sie in der einen Studie mehr Ausreisser drin haben als in einer anderen, und diese wenigen Extremwerte können Ihre Mittelwerte und andere Schlussfolgerungen ernsthaft verzerren.
Der einzige Grund, Statistiken zu berechnen, ist der, dass man sie mit anderen Statistiken vergleichen will. Dass meine hypothetische Aufgabe im Durchschnitt 10 Minuten in Anspruch genommen hat, bedeutet für sich alleine wenig. Sind 10 Minuten gut oder schlecht? Das können Sie nicht sagen, wenn Sie die 10 Minuten auf ein Dia setzen und ganz für sich allein bewundern.
Wenn Sie die Nutzer gebeten haben, einen Newsletter zu abonnieren, wäre eine Durchschnittszeit von 10 Minuten extrem schlecht. Von vielen Studien der Newsletter-Abonnier-Abläufe wissen wir, dass die durchschnittliche Zeit für so eine Aufgabe über alle Websites hinweg bei 4 Minuten liegt, und richtig zufrieden sind die Nutzer erst, wenn es weniger als 2 Minuten dauert. Andererseits würden 10 Minuten bei komplexeren Aufgaben wie zum Beispiel einem Kreditantrag eine sehr hohe Usability anzeigen.
Der Punkt ist: Sie sammeln Usability-Metriken, um sie mit anderen Usability-Metriken zu vergleichen; zum Beispiel vergleichen Sie Ihre Website mit konkurrierenden Websites oder Ihr neues Design mit dem alten.
Wenn Sie aus beiden Statistiken die Ausreisser entfernen, haben Sie weiterhin einen gültigen Vergleich. Sicher, die Durchschnittszeit wäre in beiden Fällen etwas länger, wenn Sie die Ausreisser drin lassen. Aber ohne die Ausreisser ziehen Sie mit höherer Wahrscheinlichkeit die korrekten Schlussfolgerungen, weil die Gefahr geringer ist, dass Sie einen Durchschnittswert überschätzen, nur weil er zufällig von mehr Ausreissern beeinflusst wurde als andere.
Die Fehlerquote einschätzen
Wenn Sie den Durchschnittswert aus etlichen Beobachtungen aus einer Normalverteilung bilden, ist die Standard-Abweichung Σ Ihres Mittelwertes gleich der Σ der Einzelwerte geteilt durch die Quadratwurzel aus der Anzahl der Beobachtungen. Wenn Sie z. B. zehn Beobachtungen haben, dann ist die Σ des Mittelwertes √10 = 0,316 Mal die Original-Σ.
Aus den Nutzertests für Websites und Intranets wissen wir, dass die Σ bei 52% des Mittelwertes liegt. Mit anderen Worten, wenn wir 10 Nutzer getestet haben, liegt die Σ des Durchschnittswertes bei 16% des Mittelwertes, denn 0,316 * 0,52 = 0,16.
Angenommen, wir testen eine Aufgabe, deren Bewältigung 5 Minuten in Anspruch nimmt. Dann beträgt die Σ des Durchschnittswertes 16% von 300 Sekunden = 48 Sekunden. Bei einer Normalverteilung liegen zwei Drittel der Fälle innerhalb einer Σ von +/- 1 um den Mittelwert. Also würde unser Durchschnittswert in zwei Drittel der Fälle innerhalb von 48 Sekunden um den Mittelwert 5 Minuten liegen.
Das folgende Diagramm zeigt die Fehlerspanne bei verschiedenen Anzahlen von Testpersonen unter der Annahme, dass man ein 90%iges Vertrauensintervall anstrebt (blaue Kurve). Das bedeutet, dass man in 90% der Fälle innerhalb des Intervalls liegt, in 5% der Fälle zu niedrig und in 5% der Fälle zu hoch. Für praktische Webprojekte braucht man wirklich kein akkurateres Intervall als dieses.
Die rote Kurve zeigt, was passiert, wenn wir unsere Anforderungen so weit herunterschrauben, dass wir in der Hälfte der Fälle richtig liegen. (Das heisst, wir liegen in ¼ der Fälle zu hoch und in ¼ der Fälle zu niedrig.)
Bestimmung der Anzahl der zu testenden Nutzer
Im Diagramm wird die Fehlermarge als Prozentsatz vom Mittelwert der Usability-Messergebnisse ausgedrückt. Wenn Sie z. B. 10 Nutzer testen, liegt die Fehlermarge bei +/- 27% vom Mittelwert. Das bedeutet, wenn die mittlere Zeit pro Aufgabe 300 Sekunden beträgt (5 Minuten), dann liegt Ihre Fehlermarge bei +/- 81 Sekunden. Ihr Vertrauensintervall reicht also von 219 bis 381 Sekunden: In 90% der Fälle liegen Sie innerhalb dieses Intervalls; 5% der Fälle liegen unterhalb von 219 und 5% oberhalb von 381.
Das ist ein ziemlich weites Vertrauensintervall, und das ist der Grund, warum ich empfehle, 20 Nutzer zu testen, wenn man quantitative Usability-Metriken sammeln will. Bei 20 Nutzern haben Sie wahrscheinlich einen Ausreisser dabei (da 6% der Nutzer Ausreisser sind), so dass Sie die Daten von 19 Nutzern in Ihren Durchschnittswert einrechnen. Mithin reicht Ihr Vertrauensintervall von 243 bis 357 Sekunden, denn die Fehlermarge für 19 Testpersonen liegt bei +/- 19%.
Vielleicht sagen Sie jetzt, das sei immer noch ein recht weites Vertrauensintervall, aber die Wahrheit ist: Es ist extrem teuer, es noch enger zu fassen. Um eine Fehlermarge von +/- 10% zu erreichen, brauchen Sie die Daten von 71 Nutzern, so dass Sie - bei geschätzten 5 Ausreissern - 76 Personen testen müssen.
76 Nutzer zu testen ist bei fast allen praktischen Entwicklungsprojekten komplette Geldverschwendung. Besser Sie sammeln hinreichend gute Daten für vier verschiedene Designs, indem Sie jedes davon mit 20 Nutzern testen, als Ihr Budget aufzublasen, nur um für ein einziges Design etwas bessere Messergebnisse zu bekommen.
In der Praxis reicht ein Vertrauensintervall von +/- 19% für die meisten Zwecke aus. Meistens vergleichen Sie zwei Designs miteinander, um zu sehen, welches besser abschneidet. Und der durchschnittliche Unterschied zwischen Websites liegt bei 68% - viel höher als die Fehlermarge.
Denken Sie auch daran, die +/- 19% sind so etwas wie ein Worst-Case-Szenario; in 90% der Fälle liegen Sie besser. Wie die rote Kurve zeigt, liegen Sie, wenn Sie 20 Nutzer testen und die Daten von 19 analysieren, in der Hälfte der Fälle innerhalb von +/- 8% vom Mittelwert. Mit anderen Worten: In der Hälfte der Fälle erreichen Sie eine grossartige Genauigkeit, in der anderen Hälfte eine gute. Mehr brauchen Sie bei nicht-akademischen Projekten nicht.
Quantitativ versus qualitativ?
Aufgrund der obigen Analyse empfehle ich, bei quantitativen Studien 20 Nutzer zu testen. Das ist sehr teuer, weil Testnutzer schwer zu kriegen sind und eine systematische Rekrutierung nötig machen, wenn sie Ihr Zielpublikum repräsentieren sollen.
Zum Glück muss man Usability nicht messen, um sie verbessern zu können. Gewöhnlich reicht es aus, mit einer Handvoll Nutzern zu testen und das Design in die Richtung zu modifizieren, die die qualitative Analyse des Nutzerverhaltens anzeigt. Wenn Sie bemerken, dass mehrere Leute über das gleiche Design-Element stolpern, müssen Sie nicht wirklich wissen, wie viel Zeit sie damit verlieren. Wenn etwas den Nutzern schadet, müssen Sie es ändern oder entfernen.
In der Regel können Sie eine qualitative Studie mit 5 Nutzern durchführen; quantitative Studien sind also viermal so teuer. Ausserdem passiert es leicht, dass eine quantitative Studie daneben geht und irreführende Daten erzeugt. Wenn Sie Zahlen statt Einsichten sammeln, muss alles exakt richtig sein, oder Sie können es gleich bleiben lassen.
Da sie teuer und fehleranfällig sind, warne ich gewöhnlich vor quantitativen Studien. Die ersten paar Usability-Studien, die Sie durchführen, sollten qualitativ sein. Erst wenn Ihre Organisation einen gewissen Reifegrad beim Respektieren und Integrieren von Usability in den Lebenszyklus des Designs erreicht hat und erst, wenn Sie routiniert Usability-Studien durchführen können, sollten Sie beginnen, Ihrer Mischung ein paar quantitative Studien hinzuzufügen.
© Deutsche Version von Jakob Nielsens Alertbox. Institut für Software-Ergonomie und Usability AG. Alle Rechte vorbehalten.
Kommentare auf diesen Beitrag