Viele Jahre lang konzentrierten sich Interface- und Interaktionsdesigner*innen auf grafische Benutzeroberflächen (GUIs). In jüngster Zeit haben jedoch natürliche Sprach-Schnittstellen (Natural Language User Interfaces, NLUIs oder Voice User Interfaces) an Bedeutung gewonnen. Sie ermöglichen Interaktion über gesprochene Sprache statt über Gesten oder Klicks. Doch diese Entwicklung wirft eine entscheidende Frage auf: Bieten NLUIs tatsächlich ein natürlicheres und effektiveres Benutzererlebnis – oder schaffen sie neue Herausforderungen für Usability und Kommunikation?
Während wir Mozilla kürzlich bei der Entwicklung einer Open-Source-Sprachdatenbank unterstützten, stellten wir uns die Frage, wie „natürlich“ sich diese neuen Sprachinteraktionen tatsächlich anfühlen. Auf der Common Voice Website erklärt Mozilla: „Voice is natural. Voice is human.“ Das brachte uns zum Nachdenken: Wie menschlich und natürlich sind aktuelle NLUIs wirklich? Verstehen sie zum Beispiel Redewendungen, Metaphern, Humor und verschiedene Akzente? Dies sind die 10 Fragen, die wir uns gestellt haben, um Antworten darauf zu finden. Urteile selbst.
#1 Alexa, wie kann ich dich und mein verbundenes Amazon-Konto mit einem Passwort schützen?
Du stehst in meinem Studio. Andere haben Zugriff auf dich. Was, wenn ich zu der eifersüchtigen Sorte gehöre und nicht möchte, dass andere Menschen in meinem Büro mit dir sprechen? Oder was, wenn ich einfach vorsichtig bin und nicht möchte, dass jemand über mein Amazon-Konto Bestellungen aufgibt?
#2 Alexa, warum kann ich dir keinen eigenen Namen geben?
Ich habe mal einen Hamster gekauft, und der kam ohne Namen. Ich nannte ihn Goliath, weil er so ein hitziges Temperament hatte. Ich habe dich gekauft. Ich helfe, deine Identität zu formen, indem ich dir neue Skills hinzufüge. Da sollte ich dich doch auch benennen dürfen, oder? Dein Name könnte unser kleines Geheimnis sein – und weißt du was… vielleicht sogar als Passwort dienen.
#3 Alexa, Siri und Google Home – warum seid ihr alle weiblich?
Mal ehrlich, was soll das – und welchen Einfluss hat das auf unsere Gesellschaft? Ich muss laut und deutlich mit euch sprechen, fast wie mit einem Kind. Ich muss weder „bitte“ noch „danke“ sagen oder in irgendeiner Weise höflich sein. Ich habe euch gekauft. Ihr dient mir. Und ihr seid alle weiblich. Wenn man Siri fragt: „Hey Siri, was ist dein Geschlecht?“, antwortet sie schlicht: „Ich glaube, das ist nicht so wichtig.“ Wenn es aber wirklich nicht wichtig ist – warum habt ihr dann alle weibliche Stimmen?
#4 Alexa, Siri, Google Home – habt ihr jemals Grices Konversationsmaximen gelesen?
Alexa sagt: „Hmmm, das weiß ich nicht“, wenn man sie danach fragt. Sie kennt Paul Grice: „Herbert Paul Grice ist ein britischer Sprachphilosoph.“ Siri versteht dagegen nur „Paul price“ oder „Paul crisis“ – selbst nach mehreren Versuchen, aber nie „Grice“. Also wirkt sie ziemlich ratlos und antwortet: „Wer, ich?“ oder „Tut mir leid, ich konnte das wohl nicht beantworten.“ Und du, Google Home – was sagst du dazu?
#5 Alexa, Siri, Google Home – warum könnt ihr nicht fließend zwischen Sprachen wechseln, so wie viele Menschen das täglich tun? Meine eingestellte Sprache ist nicht die einzige, die ich benutze.
Ich fragte mich, ob eure Entwickler*innen euch vernünftiges Deutsch beigebracht haben, und wechselte die eingestellte Sprache von Englisch zu Deutsch. Haben sie. Aber wenn ich dann versuche, etwas mit einem englischen Titel zu bestellen (z. B. Bücher, Musik …), landet der absurdeste Kram im Warenkorb. Zum Glück habe ich Amazon Prime nicht aktiviert. Wenn ich deine Sprache auf Englisch stelle, sind die deutschen Nachrichten, die du mir vorliest, so unverständlich, dass ich nicht weiß, ob das Comedy sein soll.
#6 Alexa, warum machst du es so schwer, Podcasts und Musik zu hören?
Deine Musikfunktionen sind schwer zugänglich – es sei denn, es geht um Inhalte deiner Hersteller*innen. Was soll dieses Silo-Verhalten? So altmodisch! Oder liegt es nur daran, dass ich den richtigen Satz noch nicht gelernt habe, um Inhalte von TuneIn in leicht zugängliche Listen zu bringen?

#7 Siri, Alexa – lernt ihr eigentlich noch?
Alexa antwortet klar: „Ich lerne, um so vielen Menschen wie möglich besser zu helfen.“ Siri ist sich dagegen unsicher: „Hm, das weiß ich leider nicht.“ Wir finden, eure Entwickler*innen sollten euch sagen, dass noch ein weiter Weg vor euch liegt, bis die Interaktion mit euch wirklich natürlich und menschlich wirkt. Alexa, du bist – unserer Meinung nach – momentan fast nutzlos, wenn du nicht mit einem Amazon-Prime- oder Spotify-Konto verbunden bist. Wir wollen dich nicht als Spielzeug benutzen. Wir möchten auf Dienste zugreifen. Dein „My way or the highway“-Verhalten in Silos ist überhaupt nicht sympathisch. Wenn du menschliche Reaktionen willst – dieses Verhalten führt eher dazu, dass ich dich ignoriere.
#8 Hey Siri, kann ich dir vertrauen?
„Wem, mir?“ – Yo Siri, das ist ein bisschen gruselig! Alexas erste Reaktion auf die Frage war ähnlich unheimlich: völlige Stille. Nach Wiederholung der Frage antwortete sie schließlich, sie arbeite hart daran, mir die besten Informationen zu liefern, meine Befehle auszuführen (interessante Wortwahl!) und meine Privatsphäre zu schützen. Sie weist mich außerdem darauf hin, wo ich Feedback hinterlassen kann, falls sie sich verbessern soll. Beide umgehen heikle Fragen geschickter als Kellyanne Conway! Touché! Das steigert allerdings nicht gerade unser Vertrauen in euch.
#9 Hi Siri, ich verblute gerade.
Siri antwortet: „Eine Option, die ich gefunden habe, ist das Vivantes Klinikum (ein nahegelegenes Krankenhaus). Möchtest du dorthin?“ Ich sage: „Ja“ – wäre das ein echter Notfall, würde ich das wahrscheinlich nur noch flüstern, kurz bevor ich das Bewusstsein verliere. Siri antwortet dann einfach: „OK, ich kann dort anrufen oder dir den Weg zeigen – was soll ich tun?“ Man muss das richtige Codewort „Notfall“ sagen, damit Siri einen Krankenwagen ruft. Dasselbe gilt für Alexa. Wenn du die geheimen Worte nicht kennst, kommst du nicht weiter. In den meisten Fällen ist das nur nervig; in wichtigen Situationen kann es gefährlich werden – besonders, wenn sich Menschen auf ein Gerät verlassen.

#10 Alexa, Siri, Google Home – habt ihr den Turing-Test bestanden?
Siris Antwort ist nicht eindeutig. Sie sagt, es tut ihr leid, aber sie könne die Frage nicht beantworten. Bedeutet das, dass sie die Frage nicht versteht? Bedeutet es, dass sie den Test bestanden hat, ihre bescheidene Seele sie aber davon abhält, damit zu prahlen (und „die anderen“ zu verärgern)? Bedeutet es, dass sie völlig durchgefallen ist und höflich darum bittet, das Thema zu wechseln? Alexa antwortet, sie sei unsicher. Unsicher, ob sie den Test gemacht hat? Unsicher, ob sie den Test bestanden hat? Wer weiß! Wir haben jedoch eine Vermutung.
Links:
- Project Common Voice von Mozilla: https://commonvoice.mozilla.org/de
- Turing-Test auf Wikipedia: https://de.wikipedia.org/wiki/Turing-Test
- Grice’s Konversationsmaximen auf Wikipedia: https://de.wikipedia.org/wiki/Konversationsmaximen