|
Es gibt zwei Haupttypen der Nutzerforschung: die
quantitative (Statistik) und die qualitative (Einsicht). Die
quantitativen Studien haben wunderliche Vorteile, aber die qualitativen
liefern die besten Ergebnisse für die geringsten Kosten. Mehr noch,
quantitative Studien sind oft zu eng, um nützlich zu sein, und manchmal
regelrecht irreführend.
Der Hauptvorteil quantitativer Studien ist einfach: Sie
brechen eine komplexe Situation auf eine einzelne Zahl herunter, die
einfach zu fassen und zu diskutieren ist. Ich nutze diese kommunikative
Klarheit selber aus, wenn ich zum Beispiel berichte, dass es für
Behinderte um 206% und für Senioren um 122% schwieriger ist, Websites zu
benutzen, als für durchschnittliche Nutzer.
Natürlich fallen viele Details unter den Tisch, wenn man
ausgearbeitete Usability-Studien in summarischen Zahlen zusammenfasst,
Details, die zu erklären 273 Seiten in Anspruch nehmen: Warum sind
die Websites schwieriger für diese Gruppen? Was kann man dagegen
tun?
Gleichwohl haben Zahlen ihre eigene Botschaft:
-
Sie sagen uns, dass die Lage für Behinderte viel
schlimmer ist als für Senioren. Da es viel mehr Senioren gibt und
diese ein besonders wohlhabendes Publikum bilden, können sich
Website-Betreiber gleichwohl entscheiden, mehr Ressourcen dafür
aufzuwenden, Senioren zufrieden zu stellen, als für Behinderte. Wenn
sie die Punktzahl kennen, können die Organisationen bewusste
Entscheidungen darüber treffen, wo sie knappe Ressourcen einsetzen.
-
Sie sagen uns, dass die Probleme nicht klein sind.
Wenn das Web für Behinderte 5% schwieriger wäre als für andere
Nutzer, würden die meisten sagen: »Was soll’s? Damit kann man
leben.« Aber eine Diskriminierung um 206% schlägt vielen auf den
Magen.
Außerdem machen es Zahlen möglich, Designs
zu vergleichen und über einen Zeitraum im Auge zu behalten. In zehn
Jahren, wenn die Websites für Senioren nur noch 50% schwieriger zu
benutzen sind als für Jüngere, wissen wir, dass wir substanzielle
Fortschritte gemacht haben.
Hüten Sie sich vor Zahlenfetischismus
Wenn ich Forschungsberichte von anderen lese, finde ich
gewöhnlich die qualitativen Ergebnisse glaubhafter und vertrauenswürdiger
als die quantitativen. Es ist ein gefährlicher Fehler zu glauben, dass
statistische Forschung irgendwie wissenschaftlicher oder glaubhafter sei
als auf Einsicht basierende beobachtende Forschung. In Wirklichkeit ist
der größte Teil der statistischen Forschung weniger glaubhaft als
qualitative Studien. Designforschung ist nicht wie medizinische Forschung:
Unter den traditionellen Wissenschaften stimmt die Ethnologie (Völkerkunde)
am ehesten mir ihr überein.
Benutzerschnittstellen und Usability sind stark
kontextbezogen, und ihre Effektivität hängt von einem tiefen Verständnis
des menschlichen Verhaltens ab. Normalerweise müssen die Designer die
Richtlinien miteinander kombinieren und gegeneinander abwägen; das aber
erfordert einiges Verständnis für die Logik und die Prinzipien
hinter den Empfehlungen. Wenn ein Sachverhalt so spezifisch ist, dass ihn
eine Formel beschreiben kann, ist er gewöhnlich für die Praxis von
Designprojekten irrelevant.
Die Fixierung auf Zahlen anstatt auf qualitative
Einsichten hat viele Usability-Studien auf Abwege geraten lassen. Wie die
folgenden Punkte zeigen, sind quantitative Ansätze in vielerlei Hinsicht
von Natur aus riskant.
Zufallsergebnisse
Die Forscher bemühen oft statistische Analysen, um
festzustellen, ob numerische Ergebnisse »statistisch signifikant«
sind. Nach der Konvention erachten sie ein Aufkommen als signifikant, wenn
die Wahrscheinlichkeit, dass es zufällig aufgetreten ist und also kein
reales Phänomen anzeigt, unter 5% liegt.
Das klingt vernünftig, aber es impliziert, dass eines von
zwanzig »signifikanten« Ergebnissen Zufall sein könnte, wenn sich die
Forscher allein auf quantitative Methoden verlassen.
Zum Glück benutzen die meisten guten Forscher –
besonders im Feld der Benutzeroberflächen – mehr als eine simple
quantitative Analyse. Deshalb haben sie, wenn sie ihr Papier veröffentlichen,
normalerweise Einsichten, die über simple Statistiken hinausgehen und
Scheinergebnisse im Zaun halten, wenn auch nicht eliminieren.
Genau so gibt es das umgekehrte Phänomen: Manchmal ist
aufgrund der Anlage des Experiments ein wirkliches Ergebnis statistisch
nicht signifikant. Etwa, weil die Studie nicht genug Teilnehmer erfasst
hat, um ein bedeutendes – aber seltenes – Vorkommen in genügender
Anzahl beobachten zu können. Es wäre also falsch, Punkte als irrelevant
unter den Tisch fallen zu lassen, nur weil sie in den Ergebnissen
quantitativer Studien nicht auftauchen.
Das »Butterfly Ballot« während der Präsidentschaftswahl
2000 in Florida ist ein gutes Beispiel: Eine Studie mit 100 Wählern hätte
keine statistisch signifikante Anzahl von Wählern erfasst, die Al Gore wählen
wollten und stattdessen ihr Loch bei Patrick Buchanan gestanzt haben, denn
es waren weniger als 1% der Wähler, die diesen Fehler gemacht haben.
Andererseits hätte eine qualitative Studie bestimmt einige Wähler
ermittelt, die etwas gesagt hätten wie: »Okay, ich möchte Gore wählen,
also stanze ich das zweite Loch... Oh, Moment, sieht so aus, als ob der
Pfeil von Buchanan auf dieses Loch zeigt. Ich muss eins tiefer gehen zum
Loch von Gore.« Wenn jemand zögert oder beinahe einen Fehler macht,
ist das Gold wert für den beobachtenden Forscher; so etwas in
Design-Empfehlungen zu übersetzen, erfordert allerdings eine qualitative
Analyse, die die Beobachtungen mit Interpretationswissen über
Usability-Prinzipien paart.
Man kann Korrelationen aus dem Hut zaubern
Wenn Sie genügend Variablen messen, entdecken Sie
unweigerlich, dass einige davon zu korrelieren scheinen. Lassen Sie alle
Ihre Statistiken durch die Software laufen, und mit Sicherheit wirft sie
Ihnen ein paar »signifikante« Korrelationen aus. (Denken Sie daran: Eine
von zwanzig Analysen sind »signifikant«, obwohl ihr kein wirkliches Phänomen
zugrunde liegt.)
Studien, die sieben messbare Größen messen, erzeugen 21
mögliche Korrelationen zwischen diesen Variablen. Folglich haben solche
Studien im Schnitt eine Scheinkorrelation, die das Statistikprogramm als
»signifikant« bewertet, obwohl die gemessenen Größen in Wirklichkeit
keinen Zusammenhang haben.
In meinem Web-Usability-Projekt 2004 sammeln wir Daten von 53
verschiedenen Aspekten des Nutzerverhaltens auf Websites. Es gibt also
1378 mögliche Korrelationen, die ich in den Trichter füllen kann. Selbst
wenn wir in der Studie überhaupt nichts entdeckt hätten, wären etwa 69
»statistisch signifikante« Korrelationen aufgetaucht.
Wie man sieht, lasse ich mich nicht dazu herab, nach
Korrelationen zu jagen; ich zitiere ausschließlich Statistiken, die sich
auf vernünftige Hypothesen beziehen und auf dem Verständnis des zugrunde
liegenden Phänomens beruhen. (In Wirklichkeit gehen die
Statistikprogramme bei der Analyse davon aus, dass die Forscher vorab ihre
Hypothesen formuliert haben; wer unabhängig von den Fakten im Output nach
»Signifikanzen« jagt, missbraucht die Software.)
Man kann Kovarianzen übersehen
Selbst wenn eine Korrelation ein wahres Phänomen repräsentiert,
kann sie in die Irre führen, wenn der reale Vorgang eine dritte
Variable betrifft, die mit den beiden untersuchten in Beziehung steht.
Zum Beispiel zeigen Studien, dass die Intelligenz in der
Reihenfolge der Geburt abnimmt. Mit anderen Worten, hat eine Person, die
als erstes Kind geboren wurde, im Schnitt einen höheren IQ als jemand,
der als zweites geboren wurde. Bei dritt-, viert-, fünftgeborenen Kindern
und so weiter wird der Durchschnitts-IQ immer niedriger. Diese Daten
scheinen eine klare Warnung an erwartungsvolle Eltern auszusprechen: Habt
nicht zu viele Kinder, oder sie werden immer dümmer. Dem ist nicht so.
Eine versteckte dritte Variable ist da im Spiel: Klügere
Eltern tendieren dazu, weniger Kinder zu haben. Wenn man den
Durchschnitts-IQ erstgeborener Kinder misst, zieht man die Stichprobe aus
der Nachkommenschaft sämtlicher Eltern, unabhängig davon, wie viele
Kinder sie haben. Aber wenn man den Durchschnitts-IQ fünftgeborener
Kinder misst, zieht man die Stichprobe offensichtlich nur aus der
Nachkommenschaft von Eltern, die fünf oder mehr Kinder haben. In der
letzteren Stichprobe wird also ein größerer Prozentsatz von Kindern mit
niedrigem IQ sein und uns die richtige – aber irreführende –
Schlussfolgerung nahe legen, dass fünftgeborene Kinder einen niedrigeren
Durchschnitts-IQ haben als erstgeborene Kinder. Jedes gegebene Paar kann
so viele Kinder haben, wie es will, und die jüngeren Kinder sind
wahrscheinlich nicht signifikant weniger intelligent als die älteren.
Wenn man aber die Intelligenz auf der Basis einer Zufallsstichprobe misst,
die aus dem jeweils vorhandenen Pool von Kindern gezogen wird, ignoriert
man die Eltern, die wirkliche Ursache der beobachteten Daten.
Als Beispiel im Web können Sie beobachten, dass längere
Linktexte positiv mit dem Benutzererfolg korreliert sind. Das bedeutet
aber nicht, dass Sie lange Links schreiben sollten. Hier sind die
Website-Designer die verborgene Kovariable: Ahnungslose Designer tendieren
dazu, kurze Textlinks wie »Mehr«, »Klicken Sie hier« und selbst
erfundene Wörter zu benutzen. Im Gegensatz dazu tendieren Usability
bewusste Designer dazu, die vorhandenen Optionen in
benutzergerechter Sprache zu erläutern, und betonten dabei stärker den
Text und andere inhaltsreiche Design-Elemente als eher schleierhafte
Elemente wie »lächelnde Ladies«. Viele Links dieser Designer können in
der Tat eine höhere Anzahl von Wörtern enthalten, aber das ist nicht der
Grund, warum die Designs funktionieren. Die Wörter zu vermehren macht ein
schlechtes Design nicht besser, nur wortreicher.
Zu stark vereinfachte Analysen
Um gute Statistiken zu bekommen, muss man die Bedingungen
des Experiments straff kontrollieren – oft so straff, dass sich die
Ergebnisse nicht auf die realen Probleme in der realen Welt
verallgemeinern lassen.
Dies ist vor allem bei universitärer Forschung ein
verbreitetes Problem, wo die Testsubjekte in der Regel Studenten im
Grundstudium sind und keine Normalnutzer. Außerdem testen viele
akademische Studien keine wirklichen Websites mit ihrer Unzahl von
kontextbezogenen Verwicklungen, sondern verkleinerte Designs mit wenigen
Seiten und vereinfachtem Inhalt.
Zum Beispiel ist es leicht, eine Studie durchzuführen,
die zeigt, dass Breadcrumbs nutzlos sind: Man gibt den Benutzern
einfach zielgerichtete Aufgaben, die es erfordern, dass sie sich auf
direktem Weg zum gewünschten Ziel durchklicken und dort verweilen. Solche
Benutzer ignorieren (mit Recht) Breadcrumbs-Pfade. Natürlich sind
Breadcrumbs nach wie vor für viele Sites empfehlenswert. Nicht nur, weil
sie einfach gebaut sind und deshalb kaum je den zielgerichtet
voranschreitenden Benutzern in die Quere kommen, sondern auch, weil sie
Benutzern helfen, die via Suchmaschine oder direktem Link tief im Innern
einer Website eingestiegen sind. Breadcrumbs geben diesen Benutzern
Kontext und helfen Benutzern beim Vergleichen von Angeboten, indem sie
ihnen direkten Zugang zu höheren Ebenen der Informationsarchitektur
verschaffen.
Die Usability als Ganzes wird oft von eng gefasster
Forschung missachtet, indem sie Dinge nicht berücksichtigt wie das
Verhalten beim wiederholten Besuch, die Sichtbarkeit für Suchmaschinen
und die Entscheidungsbildung von Vielfachnutzern. Viele solche Punkte sind
unabdingbar für den Erfolg einiger der hochwertigsten Designs, etwa von
B2B-Websites und Unternehmens-Anwendungen in Intranets.
Verzerrte Messungen
Es ist leicht, eine Studie in eine bestimmte Richtung zu
lenken, indem man den Benutzern an der falschen Stelle hilft oder ihnen
die falschen Aufgaben gibt. In der Tat kann man praktisch beweisen, was
man nur will, wenn man die Studie entsprechend arrangiert. Dieser Faktor
steht oft hinter »gesponserten« Studien, die zeigen sollen, dass die
Produkte eines bestimmten Anbieters leichter zu benutzen sind als die
Produkte eines Konkurrenten.
Auch wenn die Versuchsleiter nicht betrügen wollen, ist
es leicht, von methodischen Schwächen getäuscht zu werden, etwa indem
man die Aufmerksamkeit der Benutzer auf bestimmte Details auf dem
Bildschirm lenkt. Die bloße Tatsache, dass man mehr nach der einen Art
von Design-Elementen fragt als nach anderen, führt dazu, dass die
Benutzer stärker auf sie achten und ihr Verhalten verändern.
Eine Studie über Online-Werbung hat versucht, diesen
Fehler zu vermeiden, hat aber anstatt dessen einen anderen gemacht. Die
Versuchsleiter haben die Benutzer nicht offen gebeten, die Banner zu
kommentieren. Stattdessen haben sie die Benutzer gebeten, einfach das
gesamte Design einer Reihe von Webseiten zu kommentieren. Nach der
Testsitzung haben die Versuchsleiter den Bekannheitsgrad verschiedener
Marken gemessen und dabei hohe Werte für die Firmen herausbekommen, deren
Banner auf den Webseiten der Studie vertreten waren.
Beweist diese Studie, dass Bannerwerbung die Markenbildung
fördert, auch wenn sie keine geeignete Verkaufsstrategie ist? Nein.
Denken Sie daran, dass die Benutzer gebeten worden sind, das Seitendesign
zu kommentieren. Diese Anweisung hat die Benutzer offensichtlich
veranlasst, sich viel ausführlicher auf der jeweiligen Seite umzusehen,
als sie es bei normalem Webgebrauch tun würden. Das heißt, wenn jemand
ein Design beurteilt, inspiziert er normalerweise alle Design-Elemente der
Seite einschließlich der Werbung.
Viele Studien zur Webwerbung sind irreführend,
wahrscheinlich weil solche Studien meist von Werbeagenturen stammen. Die häufigste
Verzerrung beruht auf dem Neuigkeitsfaktor: Immer wenn ein neues
Werbeformat eingeführt wird, wird es von einer Studie begleitet, die
zeigt, dass das neue Werbeformat mehr Benutzerklicks generiert. Sicher,
das liegt daran, dass das neue Format von einem vorübergehenden Vorteil
profitiert: Es zieht die Aufmerksamkeit der Benutzer auf sich, einfach
weil es neu ist, und weil die Benutzer sich noch nicht daran gewöhnt
haben, es zu ignorieren. Die Studie kann echt sein, so lange sie läuft,
aber sie sagt nichts über die langfristigen Vorteile des neuen
Werbeformats, sobald sich der Neuigkeitseffekt abgenutzt hat.
Die Verzerrung bei Publikationen
Die Herausgeber folgen dem Prinzip »Mann beißt Hund«,
um neue und interessante Geschichten hervorzuheben. Das gilt sowohl für
wissenschaftliche Journale als auch für populäre Magazine. Das ist zwar
verständlich, aber diese Vorliebe für neue und andersartige Erkenntnisse
erzeugt eine signifikante Verzerrung bei den Ergebnissen, die mehr
Zuwendung erlangen.
Usability ist ein sehr beständiges Feld. Das
Benutzerverhalten bleibt sich über die Jahre ziemlich gleich. Ich erhalte
Studie um Studie immer die gleichen Resultate, und vielen anderen geht es
ähnlich. Von Zeit zu Zeit kommt ein Scheinresultat auf, und die
Schieflage der Publikationen stellt sicher, dass es viel mehr
Aufmerksamkeit erregt, als es verdient.
Denken Sie an die Frage der Downloadzeit für Webseiten.
Jeder weiß, dass schneller besser ist. Die Theorie des
Interaktionsdesigns dokumentiert die Bedeutung der Reaktionszeit seit
1968, und empirisch hat man seit 1995 in zahllosen Webstudien gesehen, wie
wichtig sie ist. Wenn E-Commerce-Sites ihre Reaktionszeit verkürzen,
verkaufen sie mehr. Wenn Ihr Server an einem Tag langsam ist, verlieren
Sie Verkehr. (Das ist mir gerade erst passiert: Am 14. Januar wurde Tog »geslashdottet«;
da wir uns einen Server teilen, hat meine Site 10% der normalen
Seitenabrufe für einen Mittwoch verloren, solange der verstärkte Zugriff
auf AskTog useit.com ausgebremst hat.)
Wenn zwanzig Leute die Downloadzeit untersuchen, finden
neunzehn heraus, dass Schnelligkeit besser ist. Doch wiederum gilt: Eine
von zwanzig statistischen Analysen wird das falsche Ergebnis erbringen,
und diese eine Studie wird dann breit diskutiert, bloß weil sie neu ist.
Die neunzehn korrekten Studien können dagegen leicht untergehen.
Das Beurteilen bizarrer Ergebnisse
Bizarre Ergebnisse werden manchmal von scheinbar überzeugenden
Zahlen untermauert. Sie können die Punkte, die ich hier aufgezählt habe,
als Gesundheits-Checkliste benutzen: Hat die Studie Korrelationen
aus dem Hut gezaubert? Ist sie verzerrt oder zu eng angelegt? Ist sie nur
deshalb herausgebracht worden, weil sie andersartig ist? Oder war es
einfach ein Zufallstreffer?
Normalerweise findet man heraus, dass abwegige Ergebnisse
ignoriert werden sollten. Die allgemeinen Regeln des menschlichen
Verhaltens in interaktiven Systemen sind stabil und leicht verständlich.
Ausnahmen entpuppen sich gewöhnlich genau als das, was
sie sind: Ausnahmen.
Natürlich stellt sich manchmal heraus, dass bestimmte
merkwürdige Ergebnisse revolutionär sind und nicht illusorisch. Das ist
selten, aber es kommt vor. Der Hauptunterschied liegt darin, ob das
Ergebnis wiederholbar ist und ob die anderen es jetzt auch sehen können,
wenn sie wissen, wo sie suchen müssen.
1989 zum Beispiel habe ich ein Papier über
Discount-Usability-Technik veröffentlicht, in dem festgestellt wurde,
dass kleine, schnell gemachte Benutzerstudien den umfangreicheren Studien
überlegen sind, und dass Tests mit etwa fünf Benutzern normalerweise
ausreichen. Das widersprach der herrschenden Lehre jener Zeit, die von groß
dimensionierten Tests dominiert war. In den fünfzehn Jahren seit meiner
ursprünglichen These sind etliche andere Forscher zu ähnlichen
Schlussfolgerungen gekommen, und wir haben ein mathematisches Modell
entwickelt, um die Theorie hinter meiner empirischen Beobachtung
auszuformulieren. Heute ist fast jeder, der Benutzertests macht, zu dem
Schluss gekommen, dass wir das meiste von dem, was wir überhaupt
herausfinden, mit etwa fünf Benutzern herausfinden.
Ein anderes Beispiel: Meine Schlussfolgerung, dass PDF-Dokumente
schlecht für den Online-Zugang zu Informationen sind, ist von vier
verschiedenen Studien bestätigt worden. Auch in unserer neuesten Studie
stoßen wir auf das gleiche Problem; die Schlussfolgerung hält also
bereits einige Jahre stand. Anfangs habe ich gezögert, mich gegen
Online-PDF auszusprechen, weil sie in anderen Zusammenhängen so gut
funktionieren (erwähnenswert vor allem beim Herunterladen von Dokumenten,
die man ausdrucken will, denn dafür sind sie entwickelt worden). Als die
Anzeichen immer stärker anwuchsen, wurde allerdings deutlich, dass die
Schlussfolgerung für Online-PDF ganz anders lauten musste als für
Print-PDF.
Man könnte die eine Studie, die festgestellt hat, dass
die ansonsten guten PDF in dem einen Fall schlecht sind, ablehnen. Aber
vier oder fünf Studien konstituieren einen Trend, der die Glaubwürdigkeit
der Ergebnisse als allgemeingültiges Phänomen erheblich verstärkt.
Quantitative Studien: innere Risiken
Alle aufgeführten Gründe dafür, dass quantitative
Studien irreführend sein können, verweisen auf schlechte Forschung;
es ist möglich, gute quantitative Forschung zu machen und gültige
Einsichten aus den Messergebnissen ableiten. Aber das zu tun, ist teuer
und schwierig.
Quantitative Studien müssen in jedem Detail genau richtig
angelegt werden, sonst werden die Zahlen trügerisch. Es gibt so viele
Fallen, dass man sehr schnell in eine davon hineintappt und in
Schwierigkeiten kommt.
Wenn Sie sich auf Zahlen ohne Einsichten verlassen, haben
Sie keine Kontrolle, wenn die Sache falsch läuft. Sie tappen den falschen
Weg entlang, weil die Zahlen Sie dorthin geführt haben.
Qualitative Studien sind weniger heikel und zerbrechen
nicht so leicht unter der Belastung durch ein paar methodische Schwächen.
Auch wenn Ihre Studie nicht bis ins letzte Detail perfekt ist, liefert
Ihnen die qualitative Methode, die auf dem Verstehen der Benutzer und
ihres beobachteten Verhaltens beruht, meist gute Ergebnisse.
Ja, Experten ziehen aus qualitativen Studien bessere
Ergebnisse als Anfänger. Aber bei quantitativen Studien bekommen nur die
besten Experten überhaupt gültige Ergebnisse heraus, und das auch nur,
wenn sie extrem sorgfältig vorgehen.
|