Multiple-User Simultaneous Testing (MUST)
Wenn Sie 5-10 Nutzer gleichzeitig testen, können Sie Nutzertests im grossen Umfang durchführen und trotzdem Ihre Fristen einhalten.
by Jakob Nielsen (deutsche Übersetzung) - 15.10.2007
Manchmal müssen Sie eine grosse Anzahl an Nutzern testen. Eine Möglichkeit besteht natürlich darin, die Standard-Methodik von Nutzer-Tests anzuwenden und einfach mehr Nutzer zu testen. Testen Sie einfach solange, bis Sie schwarz werden. Nur leider birgt diese Vorgehensweise die Gefahr, dass Sie die Deadline Ihres Projekts nicht einhalten können.
Alternativ können Sie auf Multiple-User Simultaneous Testing, kurz: MUST, zurückgreifen (den Ausdruck habe ich von Dennis Wixon übernommen). [Auf Deutsch: gleichzeitiges Testen mehrerer Nutzer.] Wie der Name schon sagt, testen Sie bei MUST mehrere Nutzer zur selben Zeit, so dass Sie schneller fertig werden. Bei MUST-Studien testen wir 5 bis 10 Nutzer gleichzeitig. (Sie können Labore aber auch, wie unten beschrieben, mit noch viel mehr Testplätzen einrichten. Theoretisch gibt es nach oben hin keine Grenzen für die Anzahl der Nutzer, die Sie in jeder Sitzung testen können.)
Wann man MUST verwenden sollte
Die meisten Usability-Studien sollten klein und einfach gehalten werden. Aber in manchen Fällen ist es hilfreich, MUST zu verwenden:
- Für quantitative Studien und Benchmarking müssen Sie normalerweise mindestens 20 Nutzer pro Kriterium testen, um statistisch bedeutungsvolle Aussagen zu erhalten.
- Bei länger andauernden Aufgaben müssen Sie jeden Nutzer über Tage oder Wochen hinweg testen, um unterschiedliche Verhaltensweisen beobachten zu können. Beispiele hierfür sind:
- Entwicklerprogramme. Sie können ein System, das dazu da ist, professionellen Programmierern zu helfen, nicht testen, indem Sie Nutzer ein 20-zeiliges "Hier-bin-ich"-Programm entwickeln und austesten lassen. Die Nutzer müssen ein industrie-typisches Problem bearbeiten. Dasselbe gilt für andere aufwändige problemlösende Anwendungen wie zum Beispiel CAD.
- E-Learning. Sie können nicht Lektion Nummer 39 testen, bevor die Lernenden nicht die Lektionen 1-38 absolviert haben. Für einen ausreichend entwickelten E-Kurs, könnte jeder Test eine Woche oder länger dauern.
- Usability-Fokusgruppen. Um die Probleme bei herkömmlichen Fokusgruppen zu verringern, sollte jeder Teilnehmer zunächst mit einer Test-Einzelsitzung beginnen, um die Nutzeroberfläche live zu testen. Nach den Tests können sich die Teilnehmer dann versammeln, um über ihre Erlebnisse zu diskutieren und darüber, was das für ihren Alltag bedeutet. Diese Methode verlangt definitiv MUST, denn alle Teilnehmer sollten die Nutzeroberfläche testen, bevor die Diskussionsgruppen aufeinander treffen.
- Spieledesign. Diesen Fall werde ich im Folgenden beschreiben.
Wie man viele Nutzer gleichzeitig beschäftigt
Wenn Sie viele Nutzer testen, brauchen sie normalerweise auch viele Test-Moderatoren. Ausnahmen bestehen bei länger andauernden Tests, bei denen ein paar Moderatoren durch die Reihen der Nutzer zirkulieren können und/oder später Videoaufnahmen von entscheidenden Geschehnissen ansehen können.
Wenn Sie eines der wenigen glücklichen Unternehmen sind, das viele Usability-Experten beschäftigt, können diese die MUST-Sitzungen leiten. Das ist zwar teuer, aber effizient: Alles, was Sie tun müssen, ist, die Experten loszuschicken. Schliesslich wissen sie alle, wie man eine Studie durchführt. Dennoch haben die meisten Unternehmen nicht genügend Usability-Profis, um diese je einem Test-Nutzer zuweisen zu können.
Glücklicherweise können auch Mitarbeiter, die keine Usability-Experten sind, eine Test-Sitzung abhalten, besonders dann, wenn ein erfahrener Usability-Experte den Testplan entwickelt und die Testaufgaben geschrieben hat.
Für unsere letzte MUST-Studie haben wir Studenten der Kognitionswissenschaften von Don Normans früherer Dienststelle an der University of California in San Diego angeheuert. Sie waren ausgezeichnete Test-Moderatoren. Bei anderen Studien haben wir auf Entwickler und Marketing-Experten aus dem Projektteam zurückgegriffen. Für Teammitglieder ist die verantwortliche Übernahme einer MUST-Studie eine tolle Möglichkeit, sich intensivem Kundenkontakt auszusetzen.
Moderatoren schulen
Idealerweise würden Ihre neuen Moderatoren einen gesamten Workshop über Usability durchlaufen, aber dies ist in der Realität selten umsetzbar. Dennoch ist es das Beste, wenn Sie wenigstens ein paar Stunden dafür verwenden, die Moderatoren zu schulen, bevor man sie auf die wirklichen Nutzer loslässt:
- Erstens sollten Sie natürlich Theorie und Praxis von Nutzer-Tests erklären und auch Verhaltensregeln nahe legen wie: "Halten Sie den Mund und überlassen Sie das Sprechen dem Nutzer", was ich schon viele Male angesprochen habe.
- Zweitens sollten Neulinge einen erfahrenen Usability-Experten dabei beobachten, wie er eine Muster-Sitzung mit einem Pilot-Nutzer durchführt. Das
- zeigt dem Neuling, wie man eine Studie durchführt, und
- lässt Testplan und Testaufgaben konkreter werden, als wenn man sie bloss diskutiert oder sie auf dem Papier durchgeht.
- Drittens, führen Sie eine Rollenspiel-Aufgabe durch, bei der der Usability-Experte den Nutzer spielt und verschiedene Situationen simuliert, die auf den Moderator zukommen können, zum Beispiel wenn Nutzer nicht sprechen oder wenn die Nutzer fragen, ob sie bestimmte Funktionen nutzen dürfen. (Im letzteren Fall sagen wir normalerweise: "Sie können alles tun, was sie sonst auch zu Hause/ im Büro tun würden.")
Die Nutzer vorbereiten
Es gibt nur sehr wenig spezielle Vorbereitungen für Teilnehmer von MUST-Studien. Führen Sie einfach das Standardprogramm für das Anwerben von Test-Nutzern durch. Heissen Sie sie zur Sitzung willkommen, geben Sie ihnen die Einverständniserklärungen und Instruktionen.
Trotzdem unterscheidet sich die eigentliche MUST-Sitzung von traditionellen Sitzungen auf hauptsächlich zweierlei Weise:
- Das laute Denken funktioniert nicht, wenn die Leute in kleinen Kabinen eng zusammengepackt werden. Deshalb sollten Sie nicht die gewöhnliche Aufforderung geben, dass der Nutzer seine Gedanken ausspricht, wenn er durch Ihr Design surft.
- Wenn Sie mehrere Nutzer im Raum haben, können Sie deren Ablenkung minimieren, indem Sie den Teilnehmern erzählen, dass sie voraussichtlich unterschiedliche Aufgaben gestellt bekommen. Das reduziert ihre natürliche Neigung, auf die Bildschirme der anderen Nutzer zu schauen und es bewahrt die Leute auch davor, sich selbst für dumm zu halten, wenn andere Leute vor ihnen fertig sind und den Raum verlassen.
Warum keine automatischen Tests nutzen?
Warum ist MUST den Aufwand wert, wenn Sie den Test auch zu einem jener Dienstleister ausgliedern könnten, der verspricht, ein Panel an Nutzern durch Ihre Webseite gehen zu lassen und Ihnen pikfeine Grafiken über das Ergebnis zu liefern? Weil Usability strategisch lebenswichtig für den Erfolg einer Website oder eines anderen interaktiven Produkts ist - und weil ausgegliederte Panels diesen Job nicht schaffen.
Die erste Regel bei allen Nutzertests ist, mit repräsentativen Kunden zu testen. Panels entsprechen diesen Anforderungen nur selten; sie bestehen aus Leuten, die für einen Hungerlohn wie Drohnen herumlungern und Online-Tests absolvieren. Wenn Sie ein sehr schlichtes Publikum ansprechen wollen, dann könnte dies einen Versuch wert sein. Aber nicht, wenn Sie eine B-to-B-Website haben, die etwas an Bauingenieure oder Krankenhaus-Pharmazeuten verkauft. Das reicht noch nicht einmal, wenn Sie einen normalen B-to-C-Shop haben.
Aus Spass haben sich einmal ein paar meiner Kollegen bei einem Panel-Betreiber angemeldet. Obwohl ihre Antworten beim Eingangstest exakt der Wahrheit entsprachen (was bei vielen Leuten nicht der Fall ist, wenn sie sich für Panels anmelden), wurden sie den verschiedensten Studien zugeteilt, für welche sie nicht einmal im Entferntesten der Zielgruppe entsprachen. Solche "Studien" sind häufig eine Art Voodoo-Usability, die irreführende Resultate hervorbringt.
Selbst wenn ein Panel-Betreiber Ihnen repräsentative Kunden vermitteln kann, sind automatische Studien immer nur ein Schatten der wahren Usability-Forschung, denn man kann bei ihnen nicht direkt neben dem Nutzer sitzen. Direkte Beobachtung ist für zwei Dinge unbezahlbar: um Details zu bemerken, die nie in eine Grafik aufgenommen werden würden, und um ein tiefes Verständnis des individuellen Verhaltens jedes einzelnen Nutzers zu gewinnen.
Auf Grundlage der Antworten der Nutzer in einem Fragebogen teilt der Betreiber die Nutzer in verschiedene Klassen ein. Häufig findet man dann Einteilungen, die überhaupt nicht passen. Wenn Sie zum Beispiel normale Personae (Personas) verwenden, würden Sie sofort sagen: "Dieser Nutzer ist nie und nimmer eine Susan, sondern viel eher ein Patrick" und dann würden Sie den Nutzer neu einordnen. Ein anderes Mal müssten Sie die Daten verwerfen, weil jemand einfach nicht zu Ihrem Zielpublikum gehört. Wieder ein anderes Mal könnten sie Einsichten in diese Person qualitativ verwerten - als Repräsentant eines Eckfalls -, auch wenn Sie sie nicht in der Kernstichprobe verwenden. Wenn Sie mit den Nutzern im selben Raum sind, können Sie solche Fälle identifizieren und entsprechend handeln. Wenn eine Grafik alles ist, was Sie bekommen, werden Sie nicht einmal wissen, dass einige der Testteilnehmer Grenzfälle sind oder ausserhalb Ihrer gesamten Zielgruppe sind.
Ausserdem ist es höchst motivierend, wenn Sie Mitglieder Ihres Projektteams als Moderatoren fungieren lassen, wobei diese Live-Eindrücke von echten Kunden erfahren. Eine Grafik von 500 anonymen Panel-Mitgliedern dagegen hat nicht den Bruchteil der emotionalen Wirkung der Situation, wenn Sie zusehen können, wie echte Menschen nebenan sich durch Ihr Design durchquälen.
Ein High-End-MUST-Labor: die Microsoft Spiele-Studios
MUST kann man auf viele verschiedene Arten und Weisen verwenden. Die imposanteste Einrichtung, die ich kenne, sind die Spielestudios von Microsoft. Hier ist eines ihrer Labore für Spieltests:
Spieltest-Labor in den Microsoft Spielestudios. Headsets sind hilfreich, wenn viele Menschen im selben Raum audio-intensive Spiele spielen.
Raumplan für drei Labore in den Microsoft Spielestudios.
Laut Dennis Wixon, Leiter der Nutzerforschung bei den Microsoft Spiele-Studios, durchlaufen jedes Jahr 8.000 Spieler die Labore seiner Firma. Das ist eine riesige Menge an Nutzer-Tests - weit über die Menge hinaus, die bei einer durchschnittlichen Firma getestet wird. Kein Wunder also, dass Microsoft ein High-End-Labor braucht, das ausschliesslich dem Testen von Spielen vorbehalten ist.
(Microsoft testet seine Software und Websites in anderen Usability-Laboren. Diese Labore enthalten keine Xbox 360 an jedem Platz, da sie die Nutzer davon abhalten könnten, Kuchendiagramme mit Excel zu machen. :) )
Warum führt Microsoft so viele Usability-Tests für seine Spiele durch? Es geht um eine riesige Summe Geld. Ein Spiel wie Halo 3 soll der "treibende Titel" für die Xbox 360 werden. Wenn Halo 3 toll ist, werden die Spieler die Xbox 360 kaufen. Wenn Halo 3 floppt, werden sie bei ihrer alten Xbox bleiben oder sich eine PlayStation zulegen.
Ich kenne das Budget von Wixons Abteilung nicht, aber ich würde wetten, dass es ein winziger Teil jener 300 Millionen Dollar beträgt, die Halo 3 allein in den ersten Wochen eingebracht hat, und ein noch kleinerer Teil des Xbox-Absatzes, der wiederum vom Erfolg des Spiels abhängt. Natürlich arbeitet die Usability-Abteilung neben der Halo-Serie noch an vielen weiteren Spielen. Aber allein für die letzte Version dieses Spiels haben sie mehr als 3.000 Spielstunden von 600 Test-Teilnehmern analysiert. Diese detaillierte Nutzerforschung bescherte Halo 3 viel mehr Spielspass und es wurde auch ansprechender für neue Spieler, was entscheidend dafür ist, den Absatz ´über den Stand von Halo 2 hinauszutreiben.
Der zweite Grund, für Computerspiele zahlreiche Nutzer zu testen, liegt darin, dass Spiele ein schwierigeres Feld für das Nutzeroberflächen-Design darstellen als die Domains, die wir normalerweise testen. Jedes Spiel ist eine neue Welt, wohingegen alle Websites weitgehend denselben Regeln folgen.
Wenn wir Websites testen, können wir uns auf tausende dokumentierter Richtlinien beziehen, die das Nutzerverhalten bei dieser Art Interaktionsdesign erklären. Wenn wir also ein Verhalten beobachten, können wir normalerweise daraus schliessen: "Schau, das ist ein Fall von Richtlinie Nr. 728", wie wir ihn schon hundert Mal zuvor bei anderen Nutzern auf anderen Websites beobachten konnten. Wenn wir dokumentiertes Verhalten bemerken, heisst das, dass wir nicht ganz so viele Nutzer testen müssen; ein paar Beobachtungen genügen, um sicher zu sein, dass wir auf der richtigen Spur sind. Die Datenanalyse ist ebenfalls einfacher, da wir uns auf veröffentlichte Forschungsergebnisse stützen können.
Spiele erfordern ein feiner ausbalanciertes Nutzererlebnis als funktionale Nutzeroberflächen. Angenommen, Sie entwerfen ein Zielsystem für Waffen. Wenn Sie für die Armee arbeiten, möchten Sie, dass die Nutzeroberfläche des Systems so schnell und genau arbeitet, wie es irgend geht. Es ist klar, es geht es darum, die Bösen abzuschiessen, bevor sie einen selbst erwischen. Aber wenn Sie ein entsprechendes Design für Halo 3 machen, ist die Antwort nicht so klar. Wenn das Zielen zu schnell und zu einfach wird, stellt das Spiel schnell keine Herausforderung mehr dar. Klar, Sie könnten alle Bösen aus dem Weg räumen, ohne ins Schwitzen zu geraten, aber die Absicht des Spiels ist es, dass Sie sich fühlen, als ob Sie am Abgrund stünden und in höchster Lebensgefahr schwebten. (Eine Gefahr, die wirkliche Soldaten normalerweise zu vermeiden trachten.)
Es ist einfach, ein Oberflächen-Design so zu testen, dass Schwierigkeiten vermieden werden. Aber es ist schwer abzuschätzen, ob man das richtige Mass an Schwierigkeiten gewählt hat. Deshalb lässt Microsoft so viele Nutzer seinen Spieltest durchlaufen.
Einfachere MUST-Labore
Auch ohne so ausgefallene Labore können Sie MUST-Studien durchführen. Das folgende Foto zeigt eine kürzlich abgehaltene Studie, bei der wir 5 Nutzer pro Sitzung getestet haben.
Improvisierte Kabinen wurden in einem Konferenzraum installiert, um gleichzeitige Tests bei mehreren Nutzern durchführen zu können. (Das Foto zeigt 3 von 5 Teststationen des Labors.)
Wir haben in unserem Labor Kabinen nachgeahmt, indem wir jeden Schreibtisch mit Pappwänden abgeteilt haben. Natürlich ist es besser, wenn man richtige Kabinen nutzt, aber unsere Discounter-Kabinen funktionierten auch so einigermassen. Wir haben in jeder Kabine einen Slave-Monitor verwendet, damit die Moderatoren eine gute Sicht auf die Aktionen auf dem Nutzer-Bildschirm hatten, ohne sich in die Kabine hineinlehnen zu müssen. Für die meisten Studien reicht ein einzelner Bildschirm dagegen aus.
Zusätzlich zu den Kabinen haben wir bei früheren MUST-Studien drei weitere Anordnungen verwendet:
- Einzelbüros für jeden Nutzer. (Für eine Intranet-Studie haben wir die wirklichen Büroräume der Teilnehmer verwendet.) Einzelbüros können sich an verschiedenen Stellen des Gebäudes befinden (oder sogar in verschiedenen Gebäuden), solange jedem Teilnehmer ein Moderator zugeteilt ist, der für die Zeit der Tests dort bleibt.
- Grossräumige Usability-Labore mit einer ganzen Reihe von Testplätzen. In diesen Fällen haben wir jeden Nutzer in einem separaten Labor getestet. Solch eine Aufteilung passt gut zu Studien, bei denen Nutzer tagelang an gross dimensionierten Problemen arbeiten und ein paar Moderatoren zwischen den Nutzern hin- und hergehen. Da die Moderatoren jeden Beobachtungsraum des Labors betreten und verlassen können, ohne dass es der Nutzer bemerkt, ist es möglich, viele Nutzer an einem Tag zu beobachten, ohne sie in ihrer Konzentration zu stören. Ausserdem können Sie Nutzer verlassen, die gerade an einem Teil der Aufgabe arbeiten, der für Ihre Zwecke nicht wichtig ist, ohne dass Sie ihm dieses mitteilen müssen, was sein Verhalten beeinflussen kann.
- Büros, die in ein Labornetzwerk umgewandelt wurden. Dieser Fall kombiniert die beiden vorangegangenen Einrichtungen: Viele Einzelbüros werden zu einem einzigen Beobachtungsraum verbunden. Sie können all dies über das örtliche Netzwerk abwickeln, das die die Streaming-Bildschirmausgaben für einen weit entfernten Slave-Bildschirm genauso gut übermitteln kann wie Webcam-Bilder der Nutzer.
Letztendlich sollte die überwältigende Mehrheit an Usability-Studien qualitativ sein und 5 Nutzer testen. Es gibt immer Situationen, in denen Sie mehr benötigen und dann ist es schön, wenn man MUST im seinem Repertoire hat, so dass Sie Ihre Studie vor der Deadline auf dem Tisch haben.
© Deutsche Version von Jakob Nielsens Alertbox. Institut für Software-Ergonomie und Usability AG. Alle Rechte vorbehalten.
Kommentare auf diesen Beitrag