• Facebook
  • Google+
  • Twitter
  • XING
29.02.2004

Die Risiken quantitativer Studien

Zahlenfetischismus führt Usability-Studien auf Abwege, weil er auf statistische Analysen fokussiert, die oft fehlerhaft, verzerrt, irreführend oder zu eng sind. Besser, man stellt Einsicht und qualitative Forschung in den Vordergrund.

 

by Jakob Nielsen (deutsche Übersetzung) - 01.03.2004

 

Es gibt zwei Haupttypen der Nutzerforschung: die quantitative (Statistik) und die qualitative (Einsicht). Die quantitativen Studien haben wunderliche Vorteile, aber die qualitativen liefern die besten Ergebnisse für die geringsten Kosten. Mehr noch, quantitative Studien sind oft zu eng, um nützlich zu sein, und manchmal regelrecht irreführend.

Der Hauptvorteil quantitativer Studien ist einfach: Sie brechen eine komplexe Situation auf eine einzelne Zahl herunter, die einfach zu fassen und zu diskutieren ist. Ich nutze diese kommunikative Klarheit selber aus, wenn ich zum Beispiel berichte, dass es für Behinderte um 206% und für Senioren um 122% schwieriger ist, Websites zu nutzen, als für durchschnittliche Nutzer.

Natürlich fallen viele Details unter den Tisch, wenn man ausgearbeitete Usability-Studien in summarischen Zahlen zusammenfasst, Details, die zu erklären 273 Seiten in Anspruch nehmen: Warum sind die Websites schwieriger für diese Gruppen? Was kann man dagegen tun?

Gleichwohl haben Zahlen ihre eigene Botschaft:

  • Sie sagen uns, dass die Lage für Behinderte viel schlimmer ist als für Senioren. Da es viel mehr Senioren gibt und diese ein besonders wohlhabendes Publikum bilden, können sich Website-Betreiber gleichwohl entscheiden, mehr Ressourcen dafür aufzuwenden, Senioren zufrieden zu stellen, als für Behinderte. Wenn sie die Punktzahl kennen, können die Organisationen bewusste Entscheidungen darüber treffen, wo sie knappe Ressourcen einsetzen.

  • Sie sagen uns, dass die Probleme nicht klein sind. Wenn das Web für Behinderte 5% schwieriger wäre als für andere Nutzer, würden die meisten sagen: "Was soll’s? Damit kann man leben." Aber eine Diskriminierung um 206% schlägt vielen auf den Magen.

Außerdem machen es Zahlen möglich, Designs zu vergleichen und über einen Zeitraum im Auge zu behalten. In zehn Jahren, wenn die Websites für Senioren nur noch 50% schwieriger zu nutzen sind als für Jüngere, wissen wir, dass wir substanzielle Fortschritte gemacht haben.

Hüten Sie sich vor Zahlenfetischismus

Wenn ich Forschungsberichte von anderen lese, finde ich gewöhnlich die qualitativen Ergebnisse glaubhafter und vertrauenswürdiger als die quantitativen. Es ist ein gefährlicher Fehler zu glauben, dass statistische Forschung irgendwie wissenschaftlicher oder glaubhafter sei als auf Einsicht basierende beobachtende Forschung. In Wirklichkeit ist der größte Teil der statistischen Forschung weniger glaubhaft als qualitative Studien. Designforschung ist nicht wie medizinische Forschung: Unter den traditionellen Wissenschaften stimmt die Ethnologie (Völkerkunde) am ehesten mir ihr überein.

Nutzerschnittstellen und Usability sind stark kontextbezogen, und ihre Effektivität hängt von einem tiefen Verständnis des menschlichen Verhaltens ab. Normalerweise müssen die Designer die Richtlinien miteinander kombinieren und gegeneinander abwägen; das aber erfordert einiges Verständnis für die Logik und die Prinzipien hinter den Empfehlungen. Wenn ein Sachverhalt so spezifisch ist, dass ihn eine Formel beschreiben kann, ist er gewöhnlich für die Praxis von Designprojekten irrelevant.

Die Fixierung auf Zahlen anstatt auf qualitative Einsichten hat viele Usability-Studien auf Abwege geraten lassen. Wie die folgenden Punkte zeigen, sind quantitative Ansätze in vielerlei Hinsicht von Natur aus riskant.

Zufallsergebnisse

Die Forscher bemühen oft statistische Analysen, um festzustellen, ob numerische Ergebnisse "statistisch signifikant" sind. Nach der Konvention erachten sie ein Aufkommen als signifikant, wenn die Wahrscheinlichkeit, dass es zufällig aufgetreten ist und also kein reales Phänomen anzeigt, unter 5% liegt.

Das klingt vernünftig, aber es impliziert, dass eines von zwanzig "signifikanten" Ergebnissen Zufall sein könnte, wenn sich die Forscher allein auf quantitative Methoden verlassen.

Zum Glück nutzen die meisten guten Forscher - besonders im Feld der Nutzeroberflächen - mehr als eine simple quantitative Analyse. Deshalb haben sie, wenn sie ihr Papier veröffentlichen, normalerweise Einsichten, die über simple Statistiken hinausgehen und Scheinergebnisse im Zaun halten, wenn auch nicht eliminieren.

Genau so gibt es das umgekehrte Phänomen: Manchmal ist aufgrund der Anlage des Experiments ein wirkliches Ergebnis statistisch nicht signifikant. Etwa, weil die Studie nicht genug Teilnehmer erfasst hat, um ein bedeutendes - aber seltenes - Vorkommen in genügender Anzahl beobachten zu können. Es wäre also falsch, Punkte als irrelevant unter den Tisch fallen zu lassen, nur weil sie in den Ergebnissen quantitativer Studien nicht auftauchen.

Das "Butterfly Ballot" während der Präsidentschaftswahl 2000 in Florida ist ein gutes Beispiel: Eine Studie mit 100 Wählern hätte keine statistisch signifikante Anzahl von Wählern erfasst, die Al Gore wählen wollten und stattdessen ihr Loch bei Patrick Buchanan gestanzt haben, denn es waren weniger als 1% der Wähler, die diesen Fehler gemacht haben. Andererseits hätte eine qualitative Studie bestimmt einige Wähler ermittelt, die etwas gesagt hätten wie: "Okay, ich möchte Gore wählen, also stanze ich das zweite Loch... Oh, Moment, sieht so aus, als ob der Pfeil von Buchanan auf dieses Loch zeigt. Ich muss eins tiefer gehen zum Loch von Gore." Wenn jemand zögert oder beinahe einen Fehler macht, ist das Gold wert für den beobachtenden Forscher; so etwas in Design-Empfehlungen zu übersetzen, erfordert allerdings eine qualitative Analyse, die die Beobachtungen mit Interpretationswissen über Usability-Prinzipien paart.

Man kann Korrelationen aus dem Hut zaubern

Wenn Sie genügend Variablen messen, entdecken Sie unweigerlich, dass einige davon zu korrelieren scheinen. Lassen Sie alle Ihre Statistiken durch die Software laufen, und mit Sicherheit wirft sie Ihnen ein paar "signifikante" Korrelationen aus. (Denken Sie daran: Eine von zwanzig Analysen sind "signifikant", obwohl ihr kein wirkliches Phänomen zugrunde liegt.)

Studien, die sieben messbare Größen messen, erzeugen 21 mögliche Korrelationen zwischen diesen Variablen. Folglich haben solche Studien im Schnitt eine Scheinkorrelation, die das Statistikprogramm als "signifikant" bewertet, obwohl die gemessenen Größen in Wirklichkeit keinen Zusammenhang haben.
In meinem Web-Usability-Projekt 2004 sammeln wir Daten von 53 verschiedenen Aspekten des Nutzerverhaltens auf Websites. Es gibt also 1378 mögliche Korrelationen, die ich in den Trichter füllen kann. Selbst wenn wir in der Studie überhaupt nichts entdeckt hätten, wären etwa 69 "statistisch signifikante" Korrelationen aufgetaucht.

Wie man sieht, lasse ich mich nicht dazu herab, nach Korrelationen zu jagen; ich zitiere ausschließlich Statistiken, die sich auf vernünftige Hypothesen beziehen und auf dem Verständnis des zugrunde liegenden Phänomens beruhen. (In Wirklichkeit gehen die Statistikprogramme bei der Analyse davon aus, dass die Forscher vorab ihre Hypothesen formuliert haben; wer unabhängig von den Fakten im Output nach "Signifikanzen" jagt, missbraucht die Software.)

Man kann Kovarianzen übersehen

Selbst wenn eine Korrelation ein wahres Phänomen repräsentiert, kann sie in die Irre führen, wenn der reale Vorgang eine dritte Variable betrifft, die mit den beiden untersuchten in Beziehung steht.

Zum Beispiel zeigen Studien, dass die Intelligenz in der Reihenfolge der Geburt abnimmt. Mit anderen Worten, hat eine Person, die als erstes Kind geboren wurde, im Schnitt einen höheren IQ als jemand, der als zweites geboren wurde. Bei dritt-, viert-, fünftgeborenen Kindern und so weiter wird der Durchschnitts-IQ immer niedriger. Diese Daten scheinen eine klare Warnung an erwartungsvolle Eltern auszusprechen: Habt nicht zu viele Kinder, oder sie werden immer dümmer. Dem ist nicht so.

Eine versteckte dritte Variable ist da im Spiel: Klügere Eltern tendieren dazu, weniger Kinder zu haben. Wenn man den Durchschnitts-IQ erstgeborener Kinder misst, zieht man die Stichprobe aus der Nachkommenschaft sämtlicher Eltern, unabhängig davon, wie viele Kinder sie haben. Aber wenn man den Durchschnitts-IQ fünftgeborener Kinder misst, zieht man die Stichprobe offensichtlich nur aus der Nachkommenschaft von Eltern, die fünf oder mehr Kinder haben. In der letzteren Stichprobe wird also ein größerer Prozentsatz von Kindern mit niedrigem IQ sein und uns die richtige - aber irreführende - Schlussfolgerung nahe legen, dass fünftgeborene Kinder einen niedrigeren Durchschnitts-IQ haben als erstgeborene Kinder. Jedes gegebene Paar kann so viele Kinder haben, wie es will, und die jüngeren Kinder sind wahrscheinlich nicht signifikant weniger intelligent als die älteren. Wenn man aber die Intelligenz auf der Basis einer Zufallsstichprobe misst, die aus dem jeweils vorhandenen Pool von Kindern gezogen wird, ignoriert man die Eltern, die wirkliche Ursache der beobachteten Daten.

Als Beispiel im Web können Sie beobachten, dass längere Linktexte positiv mit dem Nutzererfolg korreliert sind. Das bedeutet aber nicht, dass Sie lange Links schreiben sollten. Hier sind die Website-Designer die verborgene Kovariable: Ahnungslose Designer tendieren dazu, kurze Textlinks wie "Mehr", "Klicken Sie hier" und selbst erfundene Wörter zu benutzen. Im Gegensatz dazu tendieren Usability bewusste Designer dazu, die vorhandenen Optionen in nutzergerechter Sprache zu erläutern, und betonten dabei stärker den Text und andere inhaltsreiche Design-Elemente als eher schleierhafte Elemente wie "lächelnde Ladies". Viele Links dieser Designer können in der Tat eine höhere Anzahl von Wörtern enthalten, aber das ist nicht der Grund, warum die Designs funktionieren. Die Wörter zu vermehren macht ein schlechtes Design nicht besser, nur wortreicher.

Zu stark vereinfachte Analysen

Um gute Statistiken zu bekommen, muss man die Bedingungen des Experiments straff kontrollieren - oft so straff, dass sich die Ergebnisse nicht auf die realen Probleme in der realen Welt verallgemeinern lassen.

Dies ist vor allem bei universitärer Forschung ein verbreitetes Problem, wo die Testsubjekte in der Regel Studenten im Grundstudium sind und keine Normalnutzer. Außerdem testen viele akademische Studien keine wirklichen Websites mit ihrer Unzahl von kontextbezogenen Verwicklungen, sondern verkleinerte Designs mit wenigen Seiten und vereinfachtem Inhalt.

Zum Beispiel ist es leicht, eine Studie durchzuführen, die zeigt, dass Breadcrumbs nutzlos sind: Man gibt den Nutzern einfach zielgerichtete Aufgaben, die es erfordern, dass sie sich auf direktem Weg zum gewünschten Ziel durchklicken und dort verweilen. Solche Nutzer ignorieren (mit Recht) Breadcrumbs-Pfade. Natürlich sind Breadcrumbs nach wie vor für viele Sites empfehlenswert. Nicht nur, weil sie einfach gebaut sind und deshalb kaum je den zielgerichtet voranschreitenden Nutzern in die Quere kommen, sondern auch, weil sie Nutzern helfen, die via Suchmaschine oder direktem Link tief im Innern einer Website eingestiegen sind. Breadcrumbs geben diesen Nutzern Kontext und helfen Nutzern beim Vergleichen von Angeboten, indem sie ihnen direkten Zugang zu höheren Ebenen der Informationsarchitektur verschaffen.

Die Usability als Ganzes wird oft von eng gefasster Forschung missachtet, indem sie Dinge nicht berücksichtigt wie das Verhalten beim wiederholten Besuch, die Sichtbarkeit für Suchmaschinen und die Entscheidungsbildung von Vielfachnutzern. Viele solche Punkte sind unabdingbar für den Erfolg einiger der hochwertigsten Designs, etwa von B2B-Websites und Unternehmens-Anwendungen in Intranets.

Verzerrte Messungen

Es ist leicht, eine Studie in eine bestimmte Richtung zu lenken, indem man den Nutzern an der falschen Stelle hilft oder ihnen die falschen Aufgaben gibt. In der Tat kann man praktisch beweisen, was man nur will, wenn man die Studie entsprechend arrangiert. Dieser Faktor steht oft hinter "gesponserten" Studien, die zeigen sollen, dass die Produkte eines bestimmten Anbieters leichter zu nutzen sind als die Produkte eines Konkurrenten.

Auch wenn die Versuchsleiter nicht betrügen wollen, ist es leicht, von methodischen Schwächen getäuscht zu werden, etwa indem man die Aufmerksamkeit der Nutzer auf bestimmte Details auf dem Bildschirm lenkt. Die bloße Tatsache, dass man mehr nach der einen Art von Design-Elementen fragt als nach anderen, führt dazu, dass die Nutzer stärker auf sie achten und ihr Verhalten verändern.

Eine Studie über Online-Werbung hat versucht, diesen Fehler zu vermeiden, hat aber anstatt dessen einen anderen gemacht. Die Versuchsleiter haben die Nutzer nicht offen gebeten, die Banner zu kommentieren. Stattdessen haben sie die Nutzer gebeten, einfach das gesamte Design einer Reihe von Webseiten zu kommentieren. Nach der Testsitzung haben die Versuchsleiter den Bekannheitsgrad verschiedener Marken gemessen und dabei hohe Werte für die Firmen herausbekommen, deren Banner auf den Webseiten der Studie vertreten waren.

Beweist diese Studie, dass Bannerwerbung die Markenbildung fördert, auch wenn sie keine geeignete Verkaufsstrategie ist? Nein. Denken Sie daran, dass die Nutzer gebeten worden sind, das Seitendesign zu kommentieren. Diese Anweisung hat die Nutzer offensichtlich veranlasst, sich viel ausführlicher auf der jeweiligen Seite umzusehen, als sie es bei normalem Webgebrauch tun würden. Das heißt, wenn jemand ein Design beurteilt, inspiziert er normalerweise alle Design-Elemente der Seite einschließlich der Werbung.

Viele Studien zur Webwerbung sind irreführend, wahrscheinlich weil solche Studien meist von Werbeagenturen stammen. Die häufigste Verzerrung beruht auf dem Neuigkeitsfaktor: Immer wenn ein neues Werbeformat eingeführt wird, wird es von einer Studie begleitet, die zeigt, dass das neue Werbeformat mehr Nutzerklicks generiert. Sicher, das liegt daran, dass das neue Format von einem vorübergehenden Vorteil profitiert: Es zieht die Aufmerksamkeit der Nutzer auf sich, einfach weil es neu ist, und weil die Nutzer sich noch nicht daran gewöhnt haben, es zu ignorieren. Die Studie kann echt sein, so lange sie läuft, aber sie sagt nichts über die langfristigen Vorteile des neuen Werbeformats, sobald sich der Neuigkeitseffekt abgenutzt hat.

Die Verzerrung bei Publikationen

Die Herausgeber folgen dem Prinzip "Mann beißt Hund", um neue und interessante Geschichten hervorzuheben. Das gilt sowohl für wissenschaftliche Journale als auch für populäre Magazine. Das ist zwar verständlich, aber diese Vorliebe für neue und andersartige Erkenntnisse erzeugt eine signifikante Verzerrung bei den Ergebnissen, die mehr Zuwendung erlangen.

Usability ist ein sehr beständiges Feld. Das Nutzerverhalten bleibt sich über die Jahre ziemlich gleich. Ich erhalte Studie um Studie immer die gleichen Resultate, und vielen anderen geht es ähnlich. Von Zeit zu Zeit kommt ein Scheinresultat auf, und die Schieflage der Publikationen stellt sicher, dass es viel mehr Aufmerksamkeit erregt, als es verdient.

Denken Sie an die Frage der Downloadzeit für Webseiten. Jeder weiß, dass schneller besser ist. Die Theorie des Interaktionsdesigns dokumentiert die Bedeutung der Reaktionszeit seit 1968, und empirisch hat man seit 1995 in zahllosen Webstudien gesehen, wie wichtig sie ist. Wenn E-Commerce-Sites ihre Reaktionszeit verkürzen, verkaufen sie mehr. Wenn Ihr Server an einem Tag langsam ist, verlieren Sie Verkehr. (Das ist mir gerade erst passiert: Am 14. Januar wurde Tog "geslashdottet"; da wir uns einen Server teilen, hat meine Site 10% der normalen Seitenabrufe für einen Mittwoch verloren, solange der verstärkte Zugriff auf AskTog useit.com ausgebremst hat.)

Wenn zwanzig Leute die Downloadzeit untersuchen, finden neunzehn heraus, dass Schnelligkeit besser ist. Doch wiederum gilt: Eine von zwanzig statistischen Analysen wird das falsche Ergebnis erbringen, und diese eine Studie wird dann breit diskutiert, bloß weil sie neu ist. Die neunzehn korrekten Studien können dagegen leicht untergehen.

Das Beurteilen bizarrer Ergebnisse

Bizarre Ergebnisse werden manchmal von scheinbar überzeugenden Zahlen untermauert. Sie können die Punkte, die ich hier aufgezählt habe, als Gesundheits-Checkliste nutzen: Hat die Studie Korrelationen aus dem Hut gezaubert? Ist sie verzerrt oder zu eng angelegt? Ist sie nur deshalb herausgebracht worden, weil sie andersartig ist? Oder war es einfach ein Zufallstreffer?

Normalerweise findet man heraus, dass abwegige Ergebnisse ignoriert werden sollten. Die allgemeinen Regeln des menschlichen Verhaltens in interaktiven Systemen sind stabil und leicht verständlich.

Ausnahmen entpuppen sich gewöhnlich genau als das, was sie sind: Ausnahmen.

Natürlich stellt sich manchmal heraus, dass bestimmte merkwürdige Ergebnisse revolutionär sind und nicht illusorisch. Das ist selten, aber es kommt vor. Der Hauptunterschied liegt darin, ob das Ergebnis wiederholbar ist und ob die anderen es jetzt auch sehen können, wenn sie wissen, wo sie suchen müssen.

1989 zum Beispiel habe ich ein Papier über Discount-Usability-Technik veröffentlicht, in dem festgestellt wurde, dass kleine, schnell gemachte Nutzerstudien den umfangreicheren Studien überlegen sind, und dass Tests mit etwa fünf Nutzern normalerweise ausreichen. Das widersprach der herrschenden Lehre jener Zeit, die von groß dimensionierten Tests dominiert war. In den fünfzehn Jahren seit meiner ursprünglichen These sind etliche andere Forscher zu ähnlichen Schlussfolgerungen gekommen, und wir haben ein mathematisches Modell entwickelt, um die Theorie hinter meiner empirischen Beobachtung auszuformulieren. Heute ist fast jeder, der Nutzertests macht, zu dem Schluss gekommen, dass wir das meiste von dem, was wir überhaupt herausfinden, mit etwa fünf Nutzern herausfinden.

Ein anderes Beispiel: Meine Schlussfolgerung, dass PDF-Dokumente schlecht für den Online-Zugang zu Informationen sind, ist von vier verschiedenen Studien bestätigt worden. Auch in unserer neuesten Studie stoßen wir auf das gleiche Problem; die Schlussfolgerung hält also bereits einige Jahre stand. Anfangs habe ich gezögert, mich gegen Online-PDF auszusprechen, weil sie in anderen Zusammenhängen so gut funktionieren (erwähnenswert vor allem beim Herunterladen von Dokumenten, die man ausdrucken will, denn dafür sind sie entwickelt worden). Als die Anzeichen immer stärker anwuchsen, wurde allerdings deutlich, dass die Schlussfolgerung für Online-PDF ganz anders lauten musste als für Print-PDF.

Man könnte die eine Studie, die festgestellt hat, dass die ansonsten guten PDF in dem einen Fall schlecht sind, ablehnen. Aber vier oder fünf Studien konstituieren einen Trend, der die Glaubwürdigkeit der Ergebnisse als allgemeingültiges Phänomen erheblich verstärkt.

Quantitative Studien: innere Risiken

Alle aufgeführten Gründe dafür, dass quantitative Studien irreführend sein können, verweisen auf schlechte Forschung; es ist möglich, gute quantitative Forschung zu machen und gültige Einsichten aus den Messergebnissen ableiten. Aber das zu tun, ist teuer und schwierig.

Quantitative Studien müssen in jedem Detail genau richtig angelegt werden, sonst werden die Zahlen trügerisch. Es gibt so viele Fallen, dass man sehr schnell in eine davon hineintappt und in Schwierigkeiten kommt.

Wenn Sie sich auf Zahlen ohne Einsichten verlassen, haben Sie keine Kontrolle, wenn die Sache falsch läuft. Sie tappen den falschen Weg entlang, weil die Zahlen Sie dorthin geführt haben.

Qualitative Studien sind weniger heikel und zerbrechen nicht so leicht unter der Belastung durch ein paar methodische Schwächen. Auch wenn Ihre Studie nicht bis ins letzte Detail perfekt ist, liefert Ihnen die qualitative Methode, die auf dem Verstehen der Nutzer und ihres beobachteten Verhaltens beruht, meist gute Ergebnisse.

Ja, Experten ziehen aus qualitativen Studien bessere Ergebnisse als Anfänger. Aber bei quantitativen Studien bekommen nur die besten Experten überhaupt gültige Ergebnisse heraus, und das auch nur, wenn sie extrem sorgfältig vorgehen.

 

© Deutsche Version von Jakob Nielsens Alertbox. Institut für Software-Ergonomie und Usability AG. Alle Rechte vorbehalten.

Kommentare auf diesen Beitrag

    Keine Kommentare

Kommentar hinzufügen

Die mit * gekenzeichneten Felder sind zwingend auszufüllen