Card Sorting: Wie viele Teilnehmer braucht man?
Beim Card Sorting nimmt der Zusatzwert ab, je mehr Nutzer man zusätzlich testet, aber dennoch braucht man dreimal so viele Teilnehmer wie bei traditionellen Usability-Tests.
by Jakob Nielsen (deutsche Übersetzung) - 19.07.2004
Eine der grössten Herausforderungen beim Website- und Intranet-Design ist es, die Informations-Architektur zu entwerfen: Was gehört wohin? Es ist ein klassischer Fehler, den Informationsraum so zu strukturieren, wie Sie den Inhalt sehen - dies führt oft zu unterschiedlichen Sub-Sites für jede Abteilung oder jeden Informationslieferanten Ihrer Firma.
Anstatt einfach nur Ihr Organigramm zu widerspiegeln, können Sie die Usability erhöhen, indem Sie die Informations-Architektur so strukturieren, wie Ihre Anwender den Inhalt sehen. In allen unseren Intranet-Studien haben wir herausgefunden, dass einige der grössten Produktivitätszuwächse dann auftreten, wenn Unternehmen ihr Intranet unter Bezug auf die Arbeitsabläufe der Angestellten restrukturieren. Und beim E-Commerce steigen die Verkäufe, wenn die Produkte in den Kategorien erscheinen, in denen sie die Nutzer zuerst suchen.
Das ist alles soweit klar, aber wie findet man heraus, wie die Nutzer einen Informationsraum sehen und was sie über bestimmt Themenzuordnungen denken? Um diese Art von mentalem Modell zu erforschen, ist das Card Sorting eine der möglichen Methoden:
Schreiben Sie die Bezeichnung (und vielleicht eine kurze Beschreibung) jedes Ihrer Hauptthemen auf eine Karteikarte. Genau, die gute alte Karteikarte aus Papier!
Mischen Sie die Karten und geben Sie den Stapel einem Nutzer. (Es gelten die Standard-Empfehlungen für das Rekrutieren von Testpersonen: Sie müssen repräsentative Nutzer sein usw.)
Bitten Sie jeden Nutzer, die Karten in neue Stapel zu sortieren und dabei die Themen, die zusammengehören, auf den gleichen Stapel zu legen. Die Nutzer können so viele oder so wenig Stapel machen, wie sie wollen; manche Stapel können gross sein, andere klein.
Optional können Sie zusätzlich die Nutzer bitten, die entstandenen Stapel zu grösseren Gruppen zusammenzufassen und den verschiedenen Gruppen und Stapeln Namen zu geben. Der letzte Schritt kann Ihnen Hinweise auf Wörter und Synonyme für die Navigations-Elemente, die Links, die Überschriften und die Suchmaschinen-Optimierung geben.
Weil das Card Sorting keine Technologie verwendet, sieht es auf diesem Foto von 1995 genau so aus, wie wenn man es heute noch durchführt.
Eine Forschungsstudie
Fidelity Investments hat unter der Leitung von Dr. Thomas S. Tullis eines der weltweit besten Usability-Teams. Tullis und sein Co-Autor Larry Wood haben kürzlich die Ergebnisse einer Studie bekannt gegeben, welche die sich abflachende Kurve bei wechselnder Anzahl von Testpersonen bei einem Card Sorting gemessen hat.
Zuerst haben sie 168 Nutzer getestet und so sehr solide Ergebnisse erzielt. Dann haben sie simuliert, was herauskommt, wenn man Card Sortings mit kleineren Nutzergruppen durchführt, indem sie zufällige Ausschnitte aus dem Gesamtdatensatz analysiert haben. Um zum Beispiel nachzusehen, was bei einem Test mit zwanzig Nutzern herauskommt, haben sie per Zufall zwanzig Nutzer aus dem Gesamtsatz von 168 herausgegriffen und nur die Card Sorting Daten dieser Untergruppe analysiert. Durch die Auswahl vieler solcher Teilgruppen war es möglich, für eine wechselnde Anzahl von Nutzern Durchschnittsergebnisse abzuschätzen.
Die hauptsächlich quantitativen Daten eines Card Sortings bestehen in einem Satz von Ähnlichkeitsgraden, die messen, wie ähnlich die Nutzer bestimmte Themenpaare sortiert haben. Wenn alle Nutzer zwei bestimmte Karten jeweils in den gleichen Stapel einsortiert haben, dann haben die beiden von den Karten repräsentierten Themen eine Ähnlichkeit von 100%. Wenn die Hälfte der Nutzer die beiden Karten zusammengelegt und die andere Hälfte sie in verschiedene Stapel gelegt hat, haben diese beiden Themen einen Ähnlichkeitsgrad von 50%.
Wir können die Resultate einer kleineren Cart Sorting Studie bewerten, indem wir fragen, wie gut ihre Ähnlichkeitsgrade mit den Graden korrelieren, die aus dem Test einer grösseren Nutzergruppe gezogen wurden. (Zur Erinnerung: Korrelationen gehen von -1 bis +1. Eine Korrelation von 1 zeigt, dass die beiden Datensätze perfekt abgeglichen sind; 0 zeigt an: keine Beziehung; und negative Korrelationen zeigen Datensätze an, die einander entgegengesetzt sind.)
Wie viele Nutzer?
Für die meisten Usability-Studien empfehle ich, fünf Nutzer zu testen, denn damit gewinnen Sie genug Daten, um Ihnen das meiste zu sagen, was Sie jemals von einem Test lernen können. Beim Card Sorting allerdings gibt es zwischen den Ergebnissen von fünf Nutzern und den ultimativen Ergebnissen nur eine Korrelation von 0,75. Das ist nicht gut genug.
Man muss fünfzehn Nutzer testen, um eine Korrelation von 0,9 zu erreichen, und das ist komfortabler. Nach fünfzehn Nutzern steigt die Korrelation nur noch sehr wenig: Bei dreissig Testpersonen erhält man eine Korrelation von 0,95 - das ist sicher besser, aber für gewöhnlich nicht doppelt so viel Geld wert. Jenseits der Dreissig gibt es fast gar keine Verbesserung mehr: Man muss sechzig Personen testen, um eine Korrelation von 0,98 zu erreichen, und das ist mit Sicherheit eine finanzielle Verschwendung.
Tullis und Wood empfehlen, beim Card Sorting zwanzig bis dreissig Nutzer zu testen. Auf der Grundlage ihrer Daten lautet meine Empfehlung 15.
Warum empfehle ich, weniger Nutzer zu testen? Ich denke, dass Korrelationen von 0,9 (für fünfzehn Nutzer) oder vielleicht 0,93 (für zwanzig) für die meisten praktischen Zwecke gut genug sind. Ich kann mir sicher vorstellen, dreissig Nutzer zu testen und 0,95 zu erreichen, wenn es um ein grosses, gut fundiertes Projekt mit hohem Etat geht (sagen wir, ein Intranet für 100.000 Angestellte oder eine E-Commerce-Site mit einer halben Milliarde Dollar Umsatz). Aber die meisten Projekte haben sehr begrenzte Ressourcen für die Nutzerforschung; die verbleibenden fünfzehn Nutzer sind besser in drei qualitativen Usability-Tests für verschiedene Designkonzepte "angelegt".
Ausserdem empfehle ich nicht, eine Informations-Architektur bloss auf der Basis rein numerischer Ähnlichkeitsgrade aus dem Card Sorting zu entwerfen. Wenn Sie im Einzelfall entscheiden, was wohin gehört, sollten Sie sich genauso auf die qualitativen Einsichten stützen, die Sie bei den Testsitzungen gewonnen haben. Der Wert des Card Sortings beruht zum grossen Teil darauf, dass man den Kommentaren der Nutzer zuhört, wenn sie die Karten sortieren: Zu wissen, warum die Leute bestimmte Karten zusammenlegen, vermittelt eine tiefere Einsicht in ihr mentales Modell als die blosse Tatsache, dass sie Karten in den gleichen Stapel einsortiert haben.
Warum mehr Nutzer beim Card Sorting?
Wir wissen, dass fünf Nutzer für die meisten Usability-Studien ausreichen, warum also brauchen wir beim Card Sorting dreimal so viele Teilnehmer, um das gleiche Niveau an Einsichten zu erreichen? Weil die Methoden sich in zweierlei Hinsicht unterscheiden:
- Nutzertests sind eine Evaluationsmethode: Wir haben bereits ein Design und versuchen herauszufinden, ob es gut mit der menschlichen Natur und den Nutzerbedürfnissen zusammenpasst oder nicht. Zwar unterscheiden sich die Leute substanziell in ihren Fähigkeiten (Branchenkenntnis, Intelligenz, Computergeschicklichkeit), doch wenn ein bestimmtes Design-Element Schwierigkeiten macht, sehen wir das bereits, wenn wir ein paar Nutzer getestet haben. Ein gering qualifizierter Nutzer mag ernstere Schwierigkeiten haben als ein hoch qualifizierter, aber das Ausmass der Schwierigkeiten ist gar nicht das Thema, es sei denn, Sie führen eine quantitative Studie durch (wofür Sie mehr Nutzer brauchen). Alles, was Sie wissen müssen, ist, dass ein bestimmtes Design-Element für die Menschen schlecht läuft und geändert werden sollte.
- Kartensortieren ist eine generische Methode: Wir haben noch gar kein Design, und unser Ziel ist es herauszufinden, was die Leute über bestimmte Themen denken. Es gibt eine grosse Bandbreite an mentalen Modellen bei verschiedenen Leuten und ebenso im Vokabular, das sie nutzen, um dieselben Konzepte zu beschreiben. Wir müssen Daten von einer angemessenen Anzahl von Nutzern sammeln, ehe wir uns ein beständiges Bild der von den Nutzern bevorzugten Struktur machen und entscheiden können, wie wir uns an die Unterschiede zwischen den Nutzern anpassen.
Wenn Sie eine existierende Website oder ein Intranet haben, sagen Ihnen Tests mit ein paar Nutzern, ob die Leute Schwierigkeiten mit der Informations-Architektur haben werden. Um ohne Vorgabe eine neue Struktur zu erstellen, müssen Sie aber mehr Leute testen.
Zum Glück können Sie die beiden Methoden kombinieren: Zuerst verwenden Sie generische Studien, um die Richtung Ihres Designs festzulegen. Als zweites entwerfen Sie ein Design, am besten mit Hilfe von Papierprototypen, und führen Evaluationsstudien durch, um das Design zu verfeinern. Da Usability-Evaluationen schnell und billig sind, können Sie sich etliche Runden leisten; zudem liefern sie eine qualitative Bestätigung Ihrer anfänglichen generischen Ergebnisse. Das ist der Grund, weshalb Sie keine Ressourcen darauf verschwenden sollten, die letzten 0,02 Korrelationspunkte aus Ihren Card Sorting Aktivitäten herauszuquetschen. Sie erwischen kleinere Fehler mit den darauffolgenden Nutzertests. Das ist billiger als eine Verdopplung oder Verdreifachung des Umfangs Ihrer Card Sorting Studie.
Schwächen der Studie
Die Fidelity-Studie hat zwei offensichtliche Schwächen:
- Es ist nur eine Studie. Es ist immer besser, Daten von diversen Unternehmen zu haben.
- Die Analyse war rein quantitativ und konzentrierte sich auf eine statistische Analyse von Ähnlichkeitsgraden, wobei Nutzerkommentare und andere qualitative Daten ignoriert wurden.
Diese beiden Schwächen sind nicht fatal. Ich betrachte das als eine Pionierstudie und als grossartigen Beitrag zu unserem Wissen über Web-Usability. Allerdings wäre es angesichts der Schwächen der Studie von Nutzen, wenn sie jemand mit unterschiedlichen Informationsräumen wiederholen und dabei neben den numerischen Graden auch die qualitativen Daten analysieren würde.
Obwohl mehr Daten natürlich angenehm wären, vertraue ich den Schlussfolgerungen der Fidelity-Studie, weil sie sich mit meinen eigenen Beobachtungen während zahlreicher Card Sorting Studien decken. Ich habe immer gesagt, dass es beim Card Sorting notwendig ist, mehr Nutzer zu testen als bei traditionellen Usability-Studien. Und ich habe gewöhnlich etwa fünfzehn Nutzer empfohlen, obwohl wir auch mit gerade einmal zwölf gute Ergebnisse erzielt haben, wenn die Budgets knapp oder Nutzer besonders schwer zu rekrutieren waren.
Es gibt Unzahl von Wegen, auf denen quantitative Studien schief gehen und Sie in die Irre führen können. Deshalb ist es klug, wenn Sie eine einzelne quantitative Studie vor sich haben, die all dem widerspricht, was Sie von qualitativen Studien her wissen, die neue Studie beiseite zu legen und davon auszugehen, dass sie wahrscheinlich auf einer Verzerrung beruht. Wenn die quantitative Studie aber bestätigt, was bereits bekannt ist, ist sie höchstwahrscheinlich korrekt, und Sie können die neuen Zahlen auch dann als anständige Einschätzung verwerten, wenn sie auf weniger Daten beruhen, als sie Idealerweise sollten.
Demnach lautet die aktuelle Empfehlung, beim Card Sorting in den meisten Projekten fünfzehn Nutzer zu testen beziehungsweise dreissig bei grossen Projekten mit üppigem Etat.
© Deutsche Version von Jakob Nielsens Alertbox. Institut für Software-Ergonomie und Usability AG. Alle Rechte vorbehalten.
Kommentare auf diesen Beitrag