|
Usability können wir mit
Hilfe von Qualitätsmetriken definieren wie z. B. Lernzeit,
Effektivität, Benutzungseffizienz, Erinnerbarkeit, Anzahl
Nutzerfehler und subjektiver Zufriedenheit. Leider sammeln nur
wenige Projekte solche Messergebnisse, weil das teuer ist: Man
braucht dafür viermal so viele Benutzer wie bei einfachen
Benutzertests.
Man braucht so viele Nutzer
wegen der erheblichen individuellen Unterschiede in der
Benutzerleistung. Wenn man Leute misst, hat man immer welche
dabei, die richtig schnell sind, und welche, die richtig
langsam sind. Daher muss man diese Messungen über eine
ziemlich grosse Anzahl von Beobachtungen mitteln, um die
Varianz auszugleichen.
Die Standard-Abweichung bei
Web-Usability-Daten
Aus früheren Analysen
wissen wir, dass die Benutzerleistung auf Websites einer
Normalverteilung folgt. Zum Glück, denn Normalverteilungen
sind statistisch recht einfach zu handhaben. Mit Hilfe von
zwei Zahlen – dem Mittelwert und der Standard-Abweichung –
kann man die Glockenkurve zeichnen, die die Daten repräsentiert.
Ich habe 1520 Messungen
der Benutzerleistung (Zeit pro Aufgabe) bei 70 verschiedenen
Aufgaben aus einem breiten Spektrum von Websites und Intranets
analysiert. Im Durchschnitt aller dieser vielen Studien betrug
die Standard-Abweichung 52% der Mittelwerte. Wenn das Lösen
einer Aufgabe zum Beispiel im Schnitt 10 Minuten in Anspruch
nimmt, dann beträgt die Standard-Abweichung für diese Grösse
5,2 Minuten.
Ausreisser entfernen
Um die
Standard-Abweichung zu berechnen, habe ich zuerst die
Ausreisser entfernt, die durch äusserst langsame Benutzer
entstanden sind. Ist es angebracht, so zu verfahren? In
gewisser Hinsicht nicht: Langsame Benutzer sind eine Realität,
und man sollte sie berücksichtigen, wenn man die Qualität
eines Designs einschätzt. Man sollte sie also nicht
vergessen, auch wenn ich empfehle, die Ausreisser aus
statistischen Analysen zu entfernen. Analysieren Sie die
Testsitzungen der Ausreisser qualitativ und finden Sie heraus,
in welcher Weise »Pech« (d. h. schlechtes Design) ihnen eine
Falle gestellt hat, um ihre Leistung zu hintertreiben.
Dennoch sollten Sie für
die meisten statistischen Analysen die Ausreisser entfernen. Da sie nach dem
Zufallsprinzip auftreten, können Sie in der einen Studie mehr
Ausreisser drin haben als in einer anderen, und diese wenigen
Extremwerte können Ihre Mittelwerte und andere
Schlussfolgerungen ernsthaft verzerren.
Der einzige Grund,
Statistiken zu berechnen, ist der, dass man sie mit anderen
Statistiken vergleichen will. Dass meine hypothetische Aufgabe
im Durchschnitt 10 Minuten in Anspruch genommen hat, bedeutet
für sich alleine wenig. Sind 10 Minuten gut oder schlecht?
Das können Sie nicht sagen, wenn Sie die 10 Minuten auf ein
Dia setzen und ganz für sich allein bewundern.
Wenn Sie die Benutzer
gebeten haben, einen Newsletter zu abonnieren, wäre eine
Durchschnittszeit von 10 Minuten extrem schlecht. Von vielen
Studien der Newsletter-Abonnier-Abläufe wissen wir, dass die
durchschnittliche Zeit für so eine Aufgabe über alle
Websites hinweg bei 4 Minuten liegt, und richtig zufrieden
sind die Benutzer erst, wenn es weniger als 2 Minuten dauert.
Andererseits würden 10 Minuten bei komplexeren Aufgaben wie
zum Beispiel einem Kreditantrag eine sehr hohe Usability
anzeigen.
Der Punkt ist: Sie
sammeln Usability-Metriken, um sie mit anderen Usability-Metriken
zu vergleichen; zum Beispiel
vergleichen Sie Ihre Website mit konkurrierenden Websites oder
Ihr neues Design mit dem alten.
Wenn Sie aus beiden
Statistiken die Ausreisser entfernen, haben Sie weiterhin
einen gültigen Vergleich. Sicher, die Durchschnittszeit wäre
in beiden Fällen etwas länger, wenn Sie die Ausreisser drin
lassen. Aber ohne die Ausreisser ziehen Sie mit höherer
Wahrscheinlichkeit die korrekten Schlussfolgerungen, weil die
Gefahr geringer ist, dass Sie einen Durchschnittswert überschätzen,
nur weil er zufällig von mehr Ausreissern beeinflusst wurde
als andere.
Die Fehlerquote einschätzen
Wenn Sie den
Durchschnittswert aus etlichen Beobachtungen aus einer
Normalverteilung bilden, ist die Standard-Abweichung Σ
Ihres Mittelwertes gleich der Σ der Einzelwerte geteilt
durch die Quadratwurzel aus der Anzahl der Beobachtungen. Wenn
Sie z. B. zehn Beobachtungen haben, dann ist die Σ des
Mittelwertes √10 = 0,316 Mal die Original-Σ.
Aus den Benutzertests für
Websites und Intranets wissen wir, dass die Σ bei 52% des
Mittelwertes liegt. Mit anderen Worten, wenn wir 10 Benutzer
getestet haben, liegt die Σ
des Durchschnittswertes bei 16% des Mittelwertes, denn
0,316 * 0,52 = 0,16.
Angenommen, wir testen
eine Aufgabe, deren Bewältigung 5 Minuten in Anspruch nimmt.
Dann beträgt die Σ des Durchschnittswertes 16% von 300
Sekunden = 48 Sekunden. Bei einer Normalverteilung liegen zwei
Drittel der Fälle innerhalb einer Σ von +/- 1 um den
Mittelwert. Also würde unser Durchschnittswert in zwei
Drittel der Fälle innerhalb von 48 Sekunden um den Mittelwert
5 Minuten liegen.
Das folgende Diagramm
zeigt die Fehlerspanne bei verschiedenen Anzahlen von
Testpersonen unter der Annahme, dass man ein 90%iges
Vertrauensintervall anstrebt (blaue Kurve). Das bedeutet, dass
man in 90% der Fälle innerhalb des Intervalls liegt, in 5%
der Fälle zu niedrig und in 5% der Fälle zu hoch. Für
praktische Webprojekte braucht man wirklich kein akkurateres
Intervall als dieses.
Die rote Kurve zeigt, was
passiert, wenn wir unsere Anforderungen so weit
herunterschrauben, dass wir in der Hälfte der Fälle richtig
liegen. (Das heisst, wir liegen in ¼ der Fälle zu hoch und
in ¼ der Fälle zu niedrig.)

Bestimmung der Anzahl der
zu testenden Benutzer
Im Diagramm wird die
Fehlermarge als Prozentsatz vom Mittelwert der
Usability-Messergebnisse ausgedrückt. Wenn Sie z. B. 10
Benutzer testen, liegt die Fehlermarge bei +/- 27% vom
Mittelwert. Das bedeutet, wenn die mittlere Zeit pro Aufgabe
300 Sekunden beträgt (5 Minuten), dann liegt Ihre Fehlermarge
bei +/- 81 Sekunden. Ihr Vertrauensintervall reicht also von
219 bis 381 Sekunden: In 90% der Fälle liegen Sie innerhalb
dieses Intervalls; 5% der Fälle liegen unterhalb von 219 und
5% oberhalb von 381.
Das ist ein ziemlich
weites Vertrauensintervall, und das ist der Grund, warum ich
empfehle, 20 Benutzer zu testen, wenn man quantitative
Usability-Metriken sammeln will. Bei 20 Benutzern haben
Sie wahrscheinlich einen Ausreisser dabei (da 6% der Benutzer
Ausreisser sind), so dass Sie die Daten von 19 Benutzern in
Ihren Durchschnittswert einrechnen. Mithin reicht Ihr
Vertrauensintervall von 243 bis 357 Sekunden, denn die
Fehlermarge für 19 Testpersonen liegt bei +/- 19%.
Vielleicht sagen Sie
jetzt, das sei immer noch ein recht weites
Vertrauensintervall, aber die Wahrheit ist: Es ist extrem
teuer, es noch enger zu fassen. Um eine Fehlermarge von +/-
10% zu erreichen, brauchen Sie die Daten von 71 Benutzern, so
dass Sie – bei geschätzten 5 Ausreissern – 76 Personen
testen müssen.
76 Benutzer zu testen ist
bei fast allen praktischen Entwicklungsprojekten komplette
Geldverschwendung. Besser Sie sammeln hinreichend gute Daten für
vier verschiedene Designs, indem Sie jedes davon mit 20
Benutzern testen, als Ihr Budget aufzublasen, nur um für ein
einziges Design etwas bessere Messergebnisse zu bekommen.
In der Praxis reicht ein
Vertrauensintervall von +/- 19% für die meisten Zwecke aus.
Meistens vergleichen Sie zwei Designs miteinander, um zu
sehen, welches besser abschneidet. Und der durchschnittliche
Unterschied zwischen Websites liegt bei 68% – viel höher
als die Fehlermarge.
Denken Sie auch daran,
die +/- 19% sind so etwas wie ein Worst-Case-Szenario; in 90%
der Fälle liegen Sie besser. Wie die rote Kurve zeigt, liegen
Sie, wenn Sie 20 Benutzer testen und die Daten von 19
analysieren, in der Hälfte der Fälle innerhalb von +/- 8%
vom Mittelwert. Mit anderen Worten: In der Hälfte der Fälle
erreichen Sie eine grossartige Genauigkeit, in der anderen Hälfte
eine gute. Mehr brauchen Sie bei nicht-akademischen Projekten
nicht.
Quantitativ versus qualitativ?
Aufgrund der obigen
Analyse empfehle ich, bei quantitativen Studien 20 Benutzer zu
testen. Das ist sehr teuer, weil Testbenutzer schwer zu
kriegen sind und eine systematische Rekrutierung nötig
machen, wenn sie Ihr Zielpublikum repräsentieren sollen.
Zum Glück muss man
Usability nicht messen, um sie verbessern zu können. Gewöhnlich
reicht es aus, mit einer Handvoll Benutzern zu testen und das
Design in die Richtung zu modifizieren, die die qualitative
Analyse des Benutzerverhaltens anzeigt. Wenn Sie bemerken,
dass mehrere Leute über das gleiche Design-Element stolpern,
müssen Sie nicht wirklich wissen, wie viel Zeit sie damit
verlieren. Wenn etwas den Benutzern schadet, müssen Sie es ändern
oder entfernen.
In der Regel können Sie
eine qualitative Studie mit 5 Benutzern durchführen; quantitative
Studien sind also viermal so teuer. Ausserdem
passiert es leicht, dass eine quantitative Studie daneben geht
und irreführende Daten erzeugt. Wenn Sie Zahlen statt
Einsichten sammeln, muss alles exakt richtig sein, oder Sie können
es gleich bleiben lassen.
Da sie teuer und
fehleranfällig sind, warne ich gewöhnlich vor quantitativen
Studien. Die ersten paar Usability-Studien, die Sie durchführen,
sollten qualitativ sein. Erst wenn Ihre Organisation einen
gewissen Reifegrad beim Respektieren und Integrieren von
Usability in den Lebenszyklus des Designs erreicht hat und
erst, wenn Sie routiniert Usability-Studien durchführen können,
sollten Sie beginnen, Ihrer Mischung ein paar quantitative
Studien hinzuzufügen.
|