• Facebook
  • Google+
  • Twitter
  • XING
26.01.2003

Sprachschnittstellen: Was ist möglich?

Visuelle Schnittstellen sind den auditiven Schnittstellen in vielen Fällen überlegen. Die Star Trek Fantasie mit dem Computer zu sprechen ist nicht der fruchtbarste Weg zu brauchbaren Systemen.

 

by Jakob Nielsen (deutsche Übersetzung) - 27.01.2003

 

Sprachschnittstellen werden in den meisten Nutzungsschnittstellen Bildschirme als gewähltes Medium nicht ersetzen. Sprachschnittstellen verkörpern jedoch einen Weg, die Vorstellungskraft festzuhalten. Im Jahre 1986 habe ich eine Gruppe von 57 Computerfachleuten gebeten, die grössten Veränderungen, die bis im Jahre 2000 im Bereich der Nutzungsschnittstellen stattfinden, vorauszusagen. Die meist genannte Antwort war damals Sprach-Input/Output. Sie hat doppelt so viele Stimmen erhalten wie die grafischen Nutzungsschnittstellen (GUI).

Es ist vielleicht nicht leicht, sich daran zu erinnern, aber im Jahre 1986 war keinerlei Garantie dafür vorhanden, dass die grafischen Nutzungsschnittstellen gewinnen würden. Denn diese wurden damals meistens nur von "spielzeugähnlichen" Macintosh Maschinen genutzt - nicht von "seriösen" Systemen, welche damals von IT-Fachleuten benutzt worden sind. Jetzt, 3 Jahre nach dem Vorhersageziel, gehören GUIs zu den klar bevorzugten Nutzungsschnittstellen.

Sprachschnittstellen: Real werden

Viele Leute haben eine übertriebene Vorstellung bezüglich der Vorteile der Sprachschnittstellen, vor allem auch aufgrund der in Star Trek gezeigten sprachbasierten Computer. Der Kapitän sagt: "Computer, lokalisieren Sie die Daten des Kommandanten" und der Computer antwortet "Die Daten des Kommandanten sind auf diesem Raumschiff nicht länger verfügbar: Er ist vor einer halben Stunde zu einem nicht autorisierten Shuttlestart aufgebrochen".

Ich dachte immer, dass Kapitän Picard sehr viel besser mit einem Design bedient gewesen wäre, welches ihn unmittelbar nach dem Stehlen des Shuttles informiert hätte, ohne vorher gefragt werden zu müssen. Wie auch immer, "Das, was es zu sagen gibt", ist das Hauptproblem des Interaktionsdesigns und der hauptsächliche Usability- Bestimmungsfaktor. Ob man etwas sagt oder schreibt ist für die meisten Anwender nicht so wichtig. Deshalb werden uns Sprachschnittstellen auch nicht von den Hauptproblemen der Nutzungsschnittstellen befreien:

  • die Auswahl der Aktivitäten, die eingesetzt werden, um die Anwender zu unterstützen

  • das Bestimmen der Dialogstruktur

  • das Entscheiden, welche Eingaben und Eigenschaften verfügbar sind

  • die Anwender entscheiden lassen, was sie möchten

  • Computer-Feedback

Alles, was die Sprache macht, ist, dass sie die Anwender ihre Eingaben und Parameter sprechen anstatt schreiben lässt. Wirklich ein kleines Stück innerhalb des gesamten Puzzles.

Wann sollte Sprache eingesetzt werden

Sprachschnittstellen haben ihr grösstes Potenzial in folgenden Fällen, in denen das Vertrauen auf die traditionelle Tastatur-Maus-Monitor-Kombination schwierig wird:

  • Für Anwender mit verschiedenen Behinderungen, die eine Maus oder eine Tastatur nicht nutzen können oder die ein Bild auf dem Bildschirm nicht sehen können. Die Sprachausgabe ist für blinde oder sehbehinderte Anwender der meist benutzte Weg, um mit dem Computer zu kommunizieren. Und weil diese Anwender so sehr von der auditiven Präsentation der Information abhängig sind, ist es sehr wichtig, Websites zu erstellen, die auch mit reinen Sprachbrowsern funktionieren.

  • Für Anwender, die sowohl mit den Augen als auch mit ihren Händen sehr beschäftigt sind. Unabhängig davon, ob sie eine Behinderung haben, ist die Kombination von Maus-Monitor in diesen Fällen nicht geeignet, zum Beispiel wenn Sie Auto fahren oder komplexe Gegenstände reparieren.

  • Für Anwender, die keinen Zugriff auf eine Tastatur und/oder einen Monitor haben. In diesem Falle könnten Anwender zum Beispiel mit einem "Pay-Phone" auf das System zugreifen.

Es ist also nicht so, dass die Sprache nutzlos wäre. Es ist nur so, dass sie oftmals eine alternative Form der Interaktion ist, wenn zusätzliche Medien zur Verfügung stehen. Es ist viel einfacher, ein gewünschtes Objekt aus einer Liste auszuwählen, wenn die Liste auf einem Bildschirm angezeigt statt vorgelesen wird. Sprache ist eine eindimensionale Schnittstelle mit null Dauerhaftigkeit; ein Bildschirm ist ein zweidimensionales Medium, das Dauerhaftigkeit (man kann so lange darauf schauen, wie man möchte) mit selektivem Verändern verbindet (man kann irgendwo auf dem Bildschirm in ein Feld einen Wert eingeben, ohne den Rest des Bildschirms zu verändern).

In Zukunft werden wir vielleicht sogar zu 3-dimensionalen Schnittstellen wechseln, obwohl 3D in den wenigsten Fällen besser ist als 2D. Animationen und andere Multimedia-Effekte erhöhen die Reichhaltigkeit visueller Schnittstellen, obwohl Animationen in heutigen Designs nur sehr schlecht genutzt werden. Das Endergebnis ist demzufolge, dass visuelle Schnittstellen, für den Fall, dass die Anwender einen Monitor haben und befähigt sind, darauf zu schauen, Informationen besser kommunizieren können als auditive Schnittstellen.

Stimme in den Informationsgeräten

Es gibt viele Situationen, in denen Personen keine Anzeigegeräte mit sich rumtragen können und in denen telefonbasierte Schnittstellen der einzige Weg sind, um auf gewünschte Informationen zuzugreifen. Das Checken der Sprachbox, nachdem man in Chicago O'Hare gelandet ist, ist das wohl offenkundigste Beispiel, aber wer mag schon wirklich lineare Sprachmitteilungen abhören?

In Zukunft wird es zahlreiche kleine Geräte geben, die perfekt tragbar sind und den drahtlosen Internetzugriff ermöglichen. Die ersten Informationsgeräte sind bereits auf dem Markt. Und, je nach Gelegenheit, wird es sogar von Vorteil sein, mit dem Gerät per Spracheingabe zu kommunizieren - zum Beispiel dann, wenn der Inlandflug sich verspätet hat und man dazu angehalten ist, durch den gesamten Flughafen zu rennen, um den Anschlussflug nicht zu verpassen. Da hat man keine Zeit, auf irgendetwas zu schauen, aber es wäre sehr vorteilhaft, wenn ein sprachbasierter Agent einem in einem solchen Fall mitteilen würde, dass man "hier nach links" abdrehen müsste oder dass "der abgehende Flieger 10 Minuten Verspätung hat und man so Zeit findet, um bei Starbucks kurz anzuhalten".

Mein neuer "Danger PDA" sagt in sehr netter Stimme "Neue Mitteilung", wenn eine E-Mail ankommt, aber die eingehende Anrufe werden anhand einer Auswahl von störenden Klingeltönen angesagt, die mich nicht an jemanden erinnern, mit dem ich eigentlich reden möchte. Es wäre besser, wenn man eigene Ansagen aufnehmen könnte, wie zum Beispiel "Lucie ruft an" oder "es ist Ihre Mutter."

Die Brauchbarkeit des Sprachsystems erhöht sich, je mehr es über das Umfeld weiss. Weil die Sprache weniger aussagekräftig ist, als die visuelle Anzeige, können Sprachdesigner sich nicht darauf verlassen, dass Anwender wichtige Informationen herausfiltern oder die Verbindung zwischen verschiedenen Datenelementen herstellen. Das zu tun wird in der Verantwortlichkeit des Systems liegen. Kontextuelles Design wird wichtig werden, genauso wie das straffe Management der Anwenderzeit - Der Computer sollte die Aufmerksamkeit nicht immer und immer wieder auf Belange ziehen, die für den Anwender minimale Wichtigkeit haben.

Ich glaube, dass Sprachschnittstellen ihr grösstes Versprechen als eine zusätzliche Komponente eines multi-modalen Dialogs halten werden. Hat man Maus und Monitor zur Verfügung, wäre es zum Beispiel schneller, auf etwas auf dem Monitor zu zeigen und "rot" oder "grösser" zu sagen als das Objekt zuerst auszuwählen und dann mit der Maus auf einen anderen Ort auf dem Bildschirm zu ziehen um ein Menü aufzumachen oder eine Funktionsschaltfläche anzuklicken, welche die gleiche Information beinhaltet.

Sprache könnte auch dazu genutzt werden, die Aufmerksamkeit des Anwenders auf eine bessere Art als das extrem unangenehme "Beep", das momentan den höchsten Anteil des Audio-Vokabulars der meisten Computer ausmacht, auf wichtige Elemente zu lenken. Werde erwachsen, Computer. Du bist kein Baby mehr und du kannst mehr als unklare Signaltöne von dir geben.

 

© Deutsche Version von Jakob Nielsens Alertbox. Institut für Software-Ergonomie und Usability AG. Alle Rechte vorbehalten.

Kommentare auf diesen Beitrag

    Keine Kommentare

Kommentar hinzufügen

Die mit * gekenzeichneten Felder sind zwingend auszufüllen