Presse >> Usability News >> Mit wie vielen Anwendern testet man bei einem Usability-Test?Immer wieder werden wir angefragt, wie viele User man bei einem Usability-Test testen muss. Die enttäuschende Antwort gleich vorweg: Man kann nicht einfach eine bestimmte Zahl nennen, die für jeden Fall zutrifft. In der Regel kann man aber davon ausgehen, dass 5-6 User völlig genügen, um die meisten qualitativen Usability-Schwachstellen aufzudecken. Das ist auch ein Grund, weshalb wir hochwertige Tests zu einem fair kalkulierten Pauschalpreis anbieten können. Im Gegensatz zu einem Card Sorting, wo es im Rahmen einer aktiv-gestaltenden, formativen Evaluation darum geht, durch mindestens 15 Nutzer ein Design festzulegen, handelt es sich bei Usability-Tests zunächst einmal um eine rein summative Evaluationsmethode mit bilanzierendem und ergebnisorientiertem Schwerpunkt: Ein bereits bestehendes Design wird darauf überprüft, ob es mit den Nutzerbedürfnissen zusammenpasst oder nicht. Auch wenn sich die Nutzer von ihrem Hintergrund her stark voneinander unterscheiden, findet man doch schon nach bloss einer Handvoll Testpersonen die gravierendsten Schwachstellen und kann im Anschluss an den Test grundlegende Verbesserungen vornehmen. Tendenzen in Richtung Gewichtung der Schwachstellen zeichnen sich ebenfalls bereits ab. Will man jedoch genau Bescheid über das Ausmass der einzelnen Mängel wissen, ist eine quantitative Studie mit deutlich mehr Benutzern unumgänglich. Usability zehrt gar nicht so sehr an den Ressourcen, denn aussagekräftige Benutzertests sind nicht ausschliesslich Webdesignprojekten mit großem Etat und verschwenderischem Zeitplan vorbehalten. Bis ins letzte Detail ausgeklügelte Usability-Studien wären manchmal sogar eine pure Vergeudung der Betriebsmittel. Günstigere Tests mit gerade mal 5 Nutzern, die dann aber so häufig stattfinden, wie es das Budget zulässt, liefern optimale Resultate. In einer früheren Studie fanden Tom Landauer und Jakob Nielsen heraus, dass die Zahl der Usability-Schwachstellen, die in einem Usability Test mit n Benutzern entdeckt werden, sich annähernd durch folgende Formel berechnen lässt: N(1-(1-L)n) wobei N der Gesamtzahl an Schwachstellen im Design und L dem Anteil an den entdeckten Schwachstellen durch den einzelnen Nutzer entspricht. Der typische Wert von L liegt bei 31% und entspricht dem berechneten Durchschnitt aus zahlreichen ihrer Projekte. Für L = 31% ergibt sich folgende Kurve:
Die Grafik verdeutlicht zunächst einmal etwas ganz Banales, nämlich, dass ein Verzicht auf einen Test keinerlei Erkenntnisse bringt und sämtliche Usability-Schwachstellen unentdeckt bleiben. Schon die Auswertung eines einzigen Testnutzers dagegen liefert 31% aller Schwachstellen. Der Erkenntnisunterschied zu gar keinem Nutzer ist beachtlich. Wenn Sie den zweiten Benutzer prüfen, werden Sie feststellen, dass diese Person einige der genau gleichen Dinge tun und über einige derselben Stolpersteine straucheln wird, die schon dem ersten Mühe bereiteten. Es ergeben sich zwangsläufig gewisse Überschneidungen, was die Erkenntnisse durch die einzelnen Testpersonen anbelangt. Da die Leute aber sehr individuell sind, liefert der zweiten Nutzer noch zahlreiche zusätzlichen Befunde, die man beim Test mit nur einer Person nicht herausgefunden hätte. Der zweite Benutzer erhöht den Anteil entdeckter Schwachstellen um weitere 21%. Beim dritten Benutzer werden Sie erneut Probleme beobachten, die Sie schon beim ersten oder beim zweiten bemerkt haben. Einige Dinge werden Sie sogar schon das dritte Mal sehen. Dennoch liefert Ihnen die Auswertung der dritten Testperson noch einmal rund 15% der gesamten Schwachstellen, die Sie ohne ihn nicht entdeckt hätten. Sie sehen: Je mehr Benutzer Sie testen, um so kleiner wird die Grenzerkenntnis aus einem zusätzlichen Test. Sie sehen immer wieder dasselbe, und ab dem 5. oder 6. Nutzer vergeuden Sie letztlich Ihre Zeit, da Sie dann bereits zwischen 85 und 89% aller Schwachstellen aufgedeckt haben. Für die restlichen 10-15% der Usability Schwachstellen würden Sie nochmals rund 10 Nutzer testen müssen. Der Vorteil wiederholter Tests gegenüber einem einzelnen, ausgedehnten Usability-TestWenn also 15 Nutzer nötig sind, um alle Schwachstellen aufzudecken, warum reichen dann für einen Usability-Test in der Regel 5 oder 6? Der Hauptgrund liegt darin, dass es besser ist, Ihren Etat für mehrere kleinere Tests aufzuteilen, als alles in einem riesigen, total ausgeklügelten Test mit 15-20 Nutzern zu verbraten. Angenommen, Sie sind in der glücklichen Lage und verfügen über die Mittel für einen umfangreichen Test mit 15 repräsentativen Kunden oder Nutzern ihres Produktes. Wir empfehlen Ihnen, das Budget in diesem Fall lieber auf einen Test mit 5-6 Nutzern und einen oder zwei Folgetests im selben Umfang aufzuteilen. Ein einzelner Usability-Test mit dem Ziel, sämtliche Usability-Schwachstellen aufzudecken, evaluiert das bestehende Design rein summativ, das heisst, es wird lediglich eine - wenn auch überaus gründliche - Bestandesaufnahme gemacht. Der Gestaltungsaspekt kann dabei zu kurz kommen, da der Auftraggeber sich bei der Umsetzung der Resultate und vor allem auch bei der zukünftigen Entwicklung nur auf diese einmalige Bestandesaufnahme stützen kann. Durch die Wiederholung kleinerer Tests dagegen entstehen quasi Rückkopplungsschleifen, und Usability-Tests gewinnen stark an formativer Bedeutung. Wiederholte Tests kommen dem eigentlichen Ziel des Usability-Engineerings, nämlich das Design nachhaltig zu verbessern, näher, indem sie nicht nur Schwachstellen finden, sondern auch gleich den Erfolg des Redesigns überprüfen und Input für die weitere Entwicklung geben. Nach der Behebung der durch den ersten Test entdeckten Schwachstellen findet ein zweiter Test statt. Obwohl das Redesign die gefundenen Schwachstellen eigentlich beseitigen sollte, ist es leider oftmals so, dass man nur glaubt, die Probleme endgültig gelöst zu haben, während das Redesign oftmals zwar Besserung bringt, unglücklicherweise aber auch einige zusätzliche Probleme erst erzeugt. Der zweite Test, wiederum mit 5 Anwendern, deckt dann fast alle der im ersten Test unentdeckten Schwachstellen auf. Zudem erlangt man durch den zweiten Test meist Einsicht in fundamentale Usability-Sachverhalte, wie beispielsweise in Schwachstellen der Informationsarchitektur, des Arbeitsablaufs oder auch der Abstimmung auf die exakten Nutzerbedürfnisse. Diese Bereiche sind häufig nur mühsam aus dem ersten Usability-Test herzuleiten oder bleiben teilweise verborgen: Da die Testpersonen durch die unzureichende Usability schon auf einer sehr banalen Ebene irritiert werden, sind sie kaum in der Lage, das Produkt in seiner Tiefe zu begreifen und und testen. Der zweite Test dient also zur Qualitätssicherung der Resultate aus der ersten Studie, liefert zugleich aber einen vertieften Einblick. Ein zweiter Test wird immer zu einer neuen wichtigen, aber kürzeren Liste an Usability-Schwachstellen führen, die dann in einem zweiten Redesign behoben werden sollten. Im Anschluss an das zweite Redesign kann dann gegebenenfalls noch ein dritter Test stattfinden, der ähnlich wie der zweite, nochmals einige unerkannte Mängel aufdeckt. Die ultimative Benutzererfahrung wird ganz klar eher durch 3 Tests mit jeweils 5 Nutzern als mit einem einzigen Test mit 15 Testpersonen erreicht. Wieso teste ich dann also nicht immer nur einen User?Bei diesen Ausführungen könnte man ja glatt auf den Gedanken kommen, dass man durch 15 Tests mit je einer Testperson noch viel bessere Resultate erreichen könnte; schliesslich ist die Erkenntnis aus dem Test mit der ersten Person jeweils am grössten. Warum sollte man also vor dem Redesign überhaupt noch eine zweite Person testen? Zwei gewichtige Gründe sprechen gegen diesen Ansatz:
Wann man unbedingt mehr Nutzer prüfen sollteDie optimale Anzahl von Probanden hängt natürlich in hohem Masse auch davon ab, welches Produkt getestet und welche Ziele mit dem Test jeweils verfolgt werden. Ein Online-Shop mit einem Umsatz im sieben- oder achtstelligen Bereich, ein Intranet für Zehntausende Mitarbeiter unterschiedlichster Herkunft und Tätigkeit oder ein Portal für eine breite Nutzerschicht stellen ganz andere Anforderungen an die Usability als ein Softwareprodukt für eine kleine, relativ homogene Stammkundschaft. Entsprechend muss der Test unterschiedliche Grade an Einsichten in das tatsächliche Nutzerverhalten liefern. Sobald mehrere stark unterschiedliche Nutzergruppen das Produkt nutzen, verhält die Formel von den typischen 5-6 Nutzern nämlich nicht mehr und die richtige Anzahl Testnutzer muss individuell auf den Fall zugeschnitten werden. Nutzen beispielsweise sowohl Erwachsene als auch Kinder eine bestimmte Website, oder wird ein Intranet zugleich von unterschiedlichsten Abteilungen und vom Aussendienst genutzt, so sind Tests mit jeweils mehreren Vertretern der einzelnen Nutzergruppen angemessen. Auch länderübergreifend können gewisse Unterschiede auftreten, so dass mehrere Nationalitäten getestet werden müssen. Obwohl zwischen den Gruppen Unterschiede auftreten, wird man dennoch viele Gemeinsamkeiten entdecken. Die meisten Usability-Probleme gründen auf der Art, wie die Leute mit dem Web interagieren und wie sie durch den Umgang mit anderen Websites vorgeprägt sind. Wenn Sie mehrere unterschiedliche Gruppen testen, brauchen Sie nicht in jeder Gruppe 5-6 Leute auszuwählen, wie wenn es sich dabei um einen einzelnen Test mit ähnlichen Nutzern handeln würde. Überschneidungen werden eher sichtbar bei jeweils einer kleineren Zahl von Nutzern in der einzelnen Gruppe. Empfohlen werden Tests mit:
Datum: 04.10.2004
Quellen: |
| © 2004 - Institut für Software-Ergonomie und Usability. Alle Rechte vorbehalten |