Nutzerzufriedenheit oder Leistungsmessung
Die Nutzer bevorzugen in der Regel Designs, die schnell und einfach zu nutzen sind. Zufriedenheit korreliert aber nicht zu 100% mit objektiven Usability-Messungen.
by Jakob Nielsen (deutsche Übersetzung) - 08.10.2012
Mögen die Nutzer Systeme mit besserer Usability? Man könnte denken, dass das eine dumme Frage sei, aber die Forschung zeigt, dass es nicht so einfach ist.
Um die richtige Antwort vorwegzunehmen: ja, die Nutzer bevorzugen zu 70% das Design mit der höchsten gemessenen Usability. Aber eben nicht zu 100%.
Messen der Präferenz
Um diese Frage zu operationalisieren, müssen wir ins Detail gehen. Meine Einschätzung der Nutzerpräferenzen entstammt einer einfachen Frage zur Zufriedenheit: Auf einer Skala von 1-7, wie zufrieden sind Sie mit der Nutzung dieser Website (oder Anwendung, Intranet usw.)? Bilden wir den Durchschnitt der Bewertungen, erhalten wir einen durchschnittlichen Zufriedenheitsmesswert.
Es ist sehr wichtig anzumerken, dass wir den Testnutzern unseren (sehr kurzen) Zufriedenheitsfragebogen erst geben, nachdem sie versucht haben, das Design zu verwenden. Es wäre völlig falsch, den Menschen einige Bildschirmansichten zu zeigen und sie zu fragen, wie sie ihnen gefallen. Wenn die Menschen nicht wirklich versucht haben, eine Nutzeroberfläche für realistische Aufgaben zu verwenden , können sie auch nicht vorhersagen, wie ihnen die das System gefallen würde, wenn sie es tatsächlich verwenden müssten. (Und die echte Verwendung ist das, was zählt, nicht, was die Menschen in einer Umfrage sagen.)
Da wir die Vorlieben ermitteln, indem wir die Nutzer befragen, sind die Zahlen natürlich subjektiv. Aber gleichwohl sind es Zahlen. Und es geht hier um die mögliche Relation zwischen diesen subjektiven Zahlen und objektiveren Messungen der Usability-Qualität.
Messen der Leistung
Wenn wir uns auf die Definition von Usability (engl.) beziehen, erkennen wir einige messbare Attribute, die zusammen das grössere Konstrukt ergeben, dass wir "Usability" nennen. Eins davon ist die subjektive Zufriedenheit, wie bereits besprochen. Andere - objektivere - Kriterien beinhalten den Zeitaufwand einer Aufgabe, die Erfolgsrate und Nutzerfehler.
Um die objektiven Leistungszahlen zu ermitteln, bitten wir die Nutzer, repräsentative Aufgaben durchzuführen und zeichnen auf, wie lange sie dafür brauchen (oder ob sie die Aufgaben überhaupt erledigen können).
Quantitative Messungen sind schwieriger zu sammeln als simple Einsichten in die Usability, daher sind sie nicht in allen Studien enthalten, die wir durchführen. Von den 1733 Websites und Anwendungen, die wir in der Nielsen Norman Group systematisch getestet haben, haben wir für 298 Designs gute quantitative und subjektive Zahlen ermittelt.
Vergleich von objektiven und subjektiven Zahlen
Die folgende Grafik zeigt die kombinierten objektiven und subjektiven Zahlen zur Usability der 298 Designs, bei denen wir beides festgehalten haben. Jeder Punkt steht für eine Website, eine Anwendung oder ein Intranet.
y-Achse: Subjektive Bewertungen der Nutzer (Standardabweichungen vom Mittelwert)
x-Achse: Nutzerleistung (Standardabweichungen vom Mittelwert)
Die x-Achse zeigt, wie gut die Nutzer mit diesem Design bei der objektiven Leistungsmessung abgeschnitten haben, wie zum Beispiel Geschwindigkeit und Fehler. Wir haben die rohen Zahlen in ein uniformes System übertragen, in dem wir sehr unterschiedliche Arten von Aufgaben miteinander vergleichen können. Ob es gut oder schlecht ist, eine Aufgabe in fünf Minuten bewältigen zu können, hängt schliesslich davon ab, wie schnell die Nutzer diese Aufgabe mit anderen Designs lösen könnten. Ich habe also berechnet, wie viele Standardabweichungen jedes System erreicht hat, jeweils in Relation zum Mittelwert der entsprechenden Gruppe. Ich stellte ausserdem sicher, dass höhere Werte in der Grafik auch bessere Usability darstellten. Zum Beispiel sind bei Nutzerfehlern kleinere Werte besser, sodass eine Standardabweichung unter der mittleren Fehlerrate als ein Wert von +1 angezeigt wird.
Die y-Achse zeigt, wie wohlwollend die Nutzer in der subjektiven Zufriedenheitsumfrage jedes Design bewertet haben. Um diese Zahlen mit der x-Achse vergleichbar zu machen, habe ich sie ebenfalls in Standardabweichungswerte konvertiert.
Daher stehen die Punkte auf der rechten Seite der vertikalen Achse für Designs, bei denen die Nutzer besser als im Durchschnitt abgeschnitten haben; Punkte auf der linken Seite stehen für Designs, bei denen die Nutzer schlechter als der Durchschnitt abgeschnitten haben.
Desgleichen stehen die Punkte über der horizontalen Achse für Designs, die den Nutzern überdurchschnittlich gut gefallen haben, während die Punkte unter der Achse für Designs stehen, bei denen die Nutzer die Zufriedenheit schlechter als im Durchschnitt bewertet haben.
Korrelation von Leistung und Zufriedenheit
Die rote Linie zeigt die bestmögliche Regression zwischen den beiden Arten der Usability-Messung. Es zeigt sich, dass es eine deutliche Relation zwischen beiden gibt, mit einer Korrelation von r = 0.53.
Mit anderen Worten: Wenn es den Menschen leichter fällt, ein Design zu verwenden, neigen sie dazu, es bei den Zufriedenheitsumfragen besser zu bewerten. Da aber die Korrelation nicht 1.0 ist, muss noch mehr im Spiel sein.
Paradoxerweise stehen die objektiven und subjektiven Messungen manchmal im Widerspruch zueinander. Das passiert nicht oft. In unserem Beispiel befinden sich 70% der Punkte in den erwarteten Quadranten:
- Oben rechts: Designs, bei denen die Nutzer besser abgeschnitten haben als der Durchschnitt und die ihnen auch besser gefallen haben als der Durchschnitt.
- Unten links: Designs, bei denen die Leistung der Nutzer unterhalb des Durchschnitts lag und die ihnen auch weniger gut gefallen haben als der Durchschnitt.
Die Paradoxe sind die 30% der Punkte in den unerwarteten Quadranten:
- Oben links: Designs, bei denen die Nutzer zwar schlechter als der Durchschnitt abschnitten, die ihnen aber besser gefielen als durchschnittlich.
- Unten rechts: Designs, bei denen die Nutzer besser als der Durchschnitt abschnitten, die ihnen aber weniger gut gefallen haben.
Es gibt allerdings keine starken Paradoxien - also Fälle, in denen die Nutzer viel besser abgeschnitten haben und das Design sehr stark ablehnten, oder Fälle, bei denen die Nutzer sehr schlecht abgeschnitten haben und das Design trotzdem sehr stark bevorzugten. (Solche starken Paradoxien würden in der Grafik als Punkte ganz in der linken oberen oder der rechten unteren Ecke auftauchen.)
Hier finden wir aber nur leichte Paradoxien: Fälle, in denen die Nutzer ein wenig besser abschnitten und das Design nur etwas ablehnten oder Fälle, in denen die Nutzer etwas schlechter abschnitten und das Design trotzdem ein wenig bevorzugten.
(Wenn jemand die Punkte in der Grafik zählt, wird etwas auffallen: Die Grafik enthält 298 Punkte, die für die 298 Studien der Nielsen Norman Group stehen, in den sowohl subjektive als auch objektive Usability-Messungen durchgeführt wurden. Aber die 30%-Schätzung der Paradoxien stammt aus einer Analyse von 315 Fällen - hier sind also einige weitere Fälle enthalten, bei denen ich eine Übereinstimmung oder Abweichung zwischen Leistung und Zufriedenheit feststellen konnte, aber nicht genügend Daten hatte, um diese letzten 17 Punkte in die Grafik einzuzeichnen.)
Beachten Sie sowohl die Zufriedenheit als auch die Leistung
Es gibt bei dieser Datenanalyse zwei praktische Tipps zum Mitnehmen:
- Leistung und Zufriedenheit stehen in enger Beziehung zueinander; wenn Sie also ein Design entwerfen, das einfach zu nutzen ist, werden die Nutzer es auch eher mögen.
- Leistung und Zufriedenheit sind unterschiedliche Ansätze der Usability-Messung, daher sollten Sie in Ihrem Designprozess beide in Betracht ziehen und bei quantitativen Usability-Studien auch beide messen.
© Deutsche Version von Jakob Nielsens Alertbox. Institut für Software-Ergonomie und Usability AG. Alle Rechte vorbehalten.
Kommentare auf diesen Beitrag