Institut für Software-Ergonomie und Usability

 

 

 

 

Card Sorting: Wie viele Teilnehmer man braucht

Printer friendly version

 

Zusammenfassung
Beim Card Sorting nimmt der Zusatzwert ab, je mehr Benutzer man zusätzlich testet, aber dennoch braucht man dreimal so viele Teilnehmer wie bei traditionellen Usability-Tests.

Eine der grössten Herausforderungen beim Website- und Intranet-Design ist es, die Informations-Architektur zu entwerfen: Was gehört wohin? Es ist ein klassischer Fehler, den Informationsraum so zu strukturieren, wie Sie den Inhalt sehen – dies führt oft zu unterschiedlichen Sub-Sites für jede Abteilung oder jeden Informationslieferanten Ihrer Firma.

Anstatt einfach nur Ihr Organigramm zu widerspiegeln, können Sie die Usability erhöhen, indem Sie die Informations-Architektur so strukturieren, wie Ihre Anwender den Inhalt sehen. In allen unseren Intranet-Studien haben wir herausgefunden, dass einige der grössten Produktivitätszuwächse dann auftreten, wenn Unternehmen ihr Intranet unter Bezug auf die Arbeitsabläufe der Angestellten restrukturieren. Und beim E-Commerce steigen die Verkäufe, wenn die Produkte in den Kategorien erscheinen, in denen sie die Benutzer zuerst suchen.

Das ist alles soweit klar, aber wie findet man heraus, wie die Benutzer einen Informationsraum sehen und was sie über bestimmt Themenzuordnungen denken? Um diese Art von mentalem Modell zu erforschen, ist das Card Sorting eine der möglichen Methoden:

  1. Schreiben Sie die Bezeichnung (und vielleicht eine kurze Beschreibung) jedes Ihrer Hauptthemen auf eine Karteikarte. Genau, die gute alte Karteikarte aus Papier!

  2. Mischen Sie die Karten und geben Sie den Stapel einem Benutzer. (Es gelten die Standard-Empfehlungen für das Rekrutieren von Testpersonen: Sie müssen repräsentative Benutzer sein usw.)

  3. Bitten Sie jeden Benutzer, die Karten in neue Stapel zu sortieren und dabei die Themen, die zusammengehören, auf den gleichen Stapel zu legen. Die Benutzer können so viele oder so wenig Stapel machen, wie sie wollen; manche Stapel können gross sein, andere klein.

  4. Optional können Sie zusätzlich die Benutzer bitten, die entstandenen Stapel zu grösseren Gruppen zusammenzufassen und den verschiedenen Gruppen und Stapeln Namen zu geben. Der letzte Schritt kann Ihnen Hinweise auf Wörter und Synonyme für die Navigations-Elemente, die Links, die Überschriften und die Suchmaschinen-Optimierung geben.

Weil das Card Sorting keine Technologie verwendet, sieht es auf diesem Foto von 1995 genau so aus, wie wenn man es heute noch durchführt.

Card Sorting

Eine Forschungsstudie

Fidelity Investments hat unter der Leitung von Dr. Thomas S. Tullis eines der weltweit besten Usability-Teams. Tullis und sein Co-Autor Larry Wood haben kürzlich die Ergebnisse einer Studie bekannt gegeben, welche die sich abflachende Kurve bei wechselnder Anzahl von Testpersonen bei einem Card Sorting gemessen hat.

Zuerst haben sie 168 Benutzer getestet und so sehr solide Ergebnisse erzielt. Dann haben sie simuliert, was herauskommt, wenn man Card Sortings mit kleineren Benutzergruppen durchführt, indem sie zufällige Ausschnitte aus dem Gesamtdatensatz analysiert haben. Um zum Beispiel nachzusehen, was bei einem Test mit zwanzig Benutzern herauskommt, haben sie per Zufall zwanzig Benutzer aus dem Gesamtsatz von 168 herausgegriffen und nur die Card Sorting Daten dieser Untergruppe analysiert. Durch die Auswahl vieler solcher Teilgruppen war es möglich, für eine wechselnde Anzahl von Benutzern Durchschnittsergebnisse abzuschätzen.

Die hauptsächlich quantitativen Daten eines Card Sortings bestehen in einem Satz von Ähnlichkeitsgraden, die messen, wie ähnlich die Benutzer bestimmte Themenpaare sortiert haben. Wenn alle Benutzer zwei bestimmte Karten jeweils in den gleichen Stapel einsortiert haben, dann haben die beiden von den Karten repräsentierten Themen eine Ähnlichkeit von 100%. Wenn die Hälfte der Benutzer die beiden Karten zusammengelegt und die andere Hälfte sie in verschiedene Stapel gelegt hat, haben diese beiden Themen einen Ähnlichkeitsgrad von 50%.

Wir können die Resultate einer kleineren Cart Sorting Studie bewerten, indem wir fragen, wie gut ihre Ähnlichkeitsgrade mit den Graden korrelieren, die aus dem Test einer grösseren Benutzergruppe gezogen wurden. (Zur Erinnerung: Korrelationen gehen von –1 bis +1. Eine Korrelation von 1 zeigt, dass die beiden Datensätze perfekt abgeglichen sind; 0 zeigt an: keine Beziehung; und negative Korrelationen zeigen Datensätze an, die einander entgegengesetzt sind.)

Wie viele Benutzer?

Für die meisten Usability-Studien empfehle ich, fünf Benutzer zu testen, denn damit gewinnen Sie genug Daten, um Ihnen das meiste zu sagen, was Sie jemals von einem Test lernen können. Beim Card Sorting allerdings gibt es zwischen den Ergebnissen von fünf Benutzern und den ultimativen Ergebnissen nur eine Korrelation von 0,75. Das ist nicht gut genug.

Man muss fünfzehn Benutzer testen, um eine Korrelation von 0,9 zu erreichen, und das ist komfortabler. Nach fünfzehn Benutzern steigt die Korrelation nur noch sehr wenig: Bei dreissig Testpersonen erhält man eine Korrelation von 0,95 – das ist sicher besser, aber für gewöhnlich nicht doppelt so viel Geld wert. Jenseits der Dreissig gibt es fast gar keine Verbesserung mehr: Man muss sechzig Personen testen, um eine Korrelation von 0,98 zu erreichen, und das ist mit Sicherheit eine finanzielle Verschwendung.

Tullis und Wood empfehlen, beim Card Sorting zwanzig bis dreissig Benutzer zu testen. Auf der Grundlage ihrer Daten lautet meine Empfehlung 15.

Warum empfehle ich, weniger Benutzer zu testen? Ich denke, dass Korrelationen von 0,9 (für fünfzehn Benutzer) oder vielleicht 0,93 (für zwanzig) für die meisten praktischen Zwecke gut genug sind. Ich kann mir sicher vorstellen, dreissig Benutzer zu testen und 0,95 zu erreichen, wenn es um ein grosses, gut fundiertes Projekt mit hohem Etat geht (sagen wir, ein Intranet für 100.000 Angestellte oder eine E-Commerce-Site mit einer halben Milliarde Dollar Umsatz). Aber die meisten Projekte haben sehr begrenzte Ressourcen für die Benutzerforschung; die verbleibenden fünfzehn Benutzer sind besser in drei qualitativen Usability-Tests für verschiedene Designkonzepte »angelegt«.

Ausserdem empfehle ich nicht, eine Informations-Architektur bloss auf der Basis rein numerischer Ähnlichkeitsgrade aus dem Card Sorting zu entwerfen. Wenn Sie im Einzelfall entscheiden, was wohin gehört, sollten Sie sich genau so auf die qualitativen Einsichten stützen, die Sie bei den Testsitzungen gewonnen haben. Der Wert des Card Sortings beruht zum grossen Teil darauf, dass man den Kommentaren der Benutzer zuhört, wenn sie die Karten sortieren: Zu wissen, warum die Leute bestimmte Karten zusammenlegen, vermittelt eine tiefere Einsicht in ihr mentales Modell als die blosse Tatsache, dass sie Karten in den gleichen Stapel einsortiert haben.

Warum mehr Benutzer beim Card Sorting?

Wir wissen, dass fünf Benutzer für die meisten Usability-Studien ausreichen, warum also brauchen wir beim Card Sorting dreimal so viele Teilnehmer, um das gleiche Niveau an Einsichten zu erreichen? Weil die Methoden sich in zweierlei Hinsicht unterscheiden:

  • Benutzertests sind eine Evaluationsmethode: Wir haben bereits ein Design und versuchen herauszufinden, ob es gut mit der menschlichen Natur und den Nutzerbedürfnissen zusammenpasst oder nicht. Zwar unterscheiden sich die Leute substanziell in ihren Fähigkeiten (Branchenkenntnis, Intelligenz, Computergeschicklichkeit), doch wenn ein bestimmtes Design-Element Schwierigkeiten macht, sehen wir das bereits, wenn wir ein paar Benutzer getestet haben. Ein gering qualifizierter Benutzer mag ernstere Schwierigkeiten haben als ein hoch qualifizierter, aber das Ausmass der Schwierigkeiten ist gar nicht das Thema, es sei denn, Sie führen eine quantitative Studie durch (wofür Sie mehr Benutzer brauchen). Alles, was Sie wissen müssen, ist, dass ein bestimmtes Design-Element für die Menschen schlecht läuft und geändert werden sollte.
  • Kartensortieren ist eine generische Methode: Wir haben noch gar kein Design, und unser Ziel ist es herauszufinden, was die Leute über bestimmte Themen denken. Es gibt eine grosse Bandbreite an mentalen Modellen bei verschiedenen Leuten und ebenso im Vokabular, das sie benutzen, um dieselben Konzepte zu beschreiben. Wir müssen Daten von einer angemessenen Anzahl von Benutzern sammeln, ehe wir uns ein beständiges Bild der von den Benutzern bevorzugten Struktur machen und entscheiden können, wie wir uns an die Unterschiede zwischen den Benutzern anpassen.

Wenn Sie eine existierende Website oder ein Intranet haben, sagen Ihnen Tests mit ein paar Benutzern, ob die Leute Schwierigkeiten mit der Informations-Architektur haben werden. Um ohne Vorgabe eine neue Struktur zu erstellen, müssen Sie aber mehr Leute testen.

Zum Glück können Sie die beiden Methoden kombinieren: Zuerst verwenden Sie generische Studien, um die Richtung Ihres Designs festzulegen. Als zweites entwerfen Sie ein Design, am besten mit Hilfe von Papierprototypen, und führen Evaluationsstudien durch, um das Design zu verfeinern. Da Usability-Evaluationen schnell und billig sind, können Sie sich etliche Runden leisten; zudem liefern sie eine qualitative Bestätigung Ihrer anfänglichen generischen Ergebnisse. Das ist der Grund, weshalb Sie keine Ressourcen darauf verschwenden sollten, die letzten 0,02 Korrelationspunkte aus Ihren Card Sorting Aktivitäten herauszuquetschen. Sie erwischen kleinere Fehler mit den darauffolgenden Benutzertests. Das ist billiger als eine Verdopplung oder Verdreifachung des Umfangs Ihrer Card Sorting Studie.

Schwächen der Studie

Die Fidelity-Studie hat zwei offensichtliche Schwächen:

  • Es ist nur eine Studie. Es ist immer besser, Daten von diversen Unternehmen zu haben.
  • Die Analyse war rein quantitativ und konzentrierte sich auf eine statistische Analyse von Ähnlichkeitsgraden, wobei Benutzerkommentare und andere qualitative Daten ignoriert wurden.

Diese beiden Schwächen sind nicht fatal. Ich betrachte das als eine Pionierstudie und als grossartigen Beitrag zu unserem Wissen über Web-Usability. Allerdings wäre es angesichts der Schwächen der Studie von Nutzen, wenn sie jemand mit unterschiedlichen Informationsräumen wiederholen und dabei neben den numerischen Graden auch die qualitativen Daten analysieren würde.

Obwohl mehr Daten natürlich angenehm wären, vertraue ich den Schlussfolgerungen der Fidelity-Studie, weil sie sich mit meinen eigenen Beobachtungen während zahlreicher Card Sorting Studien decken. Ich habe immer gesagt, dass es beim Card Sorting notwendig ist, mehr Benutzer zu testen als bei traditionellen Usability-Studien. Und ich habe gewöhnlich etwa fünfzehn Benutzer empfohlen, obwohl wir auch mit gerade einmal zwölf gute Ergebnisse erzielt haben, wenn die Budgets knapp oder Benutzer besonders schwer zu rekrutieren waren.

Es gibt Unzahl von Wegen, auf denen quantitative Studien schief gehen und Sie in die Irre führen können. Deshalb ist es klug, wenn Sie eine einzelne quantitative Studie vor sich haben, die all dem widerspricht, was Sie von qualitativen Studien her wissen, die neue Studie beiseite zu legen und davon auszugehen, dass sie wahrscheinlich auf einer Verzerrung beruht. Wenn die quantitative Studie aber bestätigt, was bereits bekannt ist, ist sie höchstwahrscheinlich korrekt, und Sie können die neuen Zahlen auch dann als anständige Einschätzung verwerten, wenn sie auf weniger Daten beruhen, als sie Idealerweise sollten.

Demnach lautet die aktuelle Empfehlung, beim Card Sorting in den meisten Projekten fünfzehn Benutzer zu testen beziehungsweise dreissig bei grossen Projekten mit üppigem Etat.

Mehr darüber

Nehmen Sie an einem zweitägigen, in die Tiefe gehenden Tutorium über Informations-Architektur teil – auf den User-Experience-Konferenzen 2004 in Las Vegas und Amsterdam.

 

 

© Deutsche Version. Institut für Software-Ergonomie und Usability. Alle Rechte vorbehalten.

Zurück zu Jakobs Alertbox

 

Disclaimer ¦ AGB

© 2004 - Institut für Software-Ergonomie und Usability. Alle Rechte vorbehalten

Zum Anfang der Seite