Nuance im Interview: Die Zukunft der Sprachsteuerung

von

Apple bewirbt das iPhone 4S mit Siri, dem sprachgesteuerten Assistenten. Das zeigt auch, welchen Stellenwert diese Funktion schon heute einnimmt. Doch was bringt diese Technologie in Zukunft? In welchen Bereichen werden wir uns Technik mit einfachen Sätzen Untertan machen? Diese und andere Fragen beantwortet Reimund Schmald von Nuance.

Nuance im Interview: Die Zukunft der Sprachsteuerung

Nuance ist ein weltweit führender Anbieter von Spracherkennung und „Natural Language Understanding“ (NLU). Neben diversen Call-Centern, Navigationssystemen und Apps wie  dürfte der Name Nuance den Meisten vor allem im Zusammenhang mit Siri ein Begriff sein.

Das Unternehmen brachte den sprachgesteuerten Assistenten in Form einer Stand-Alone-App in den iTunes Store — bevor Apple ihn übernahm und als integralen Bestandteil des iPhone 4S vermarktete.

Reimund Schmald, verantwortlich für das Marketing für den Bereich Mobility in Europa, dem Mittleren Osten und Afrika („EMEA“) verrät GIGA, was wir von Sprachsteuerung in den kommenden Jahren erwarten dürfen.

Zunächst die Frage an den Marktführer: Welche Projekte stehen bei Nuance an?

„Im mobilen Bereich fokussieren wir derzeit auf Auto, TV, Smartphones und Tablets“, erklärt Schmald. Bestehende Apps werden dabei ständig um neue Funktionen ergänzt. So plant man beispielsweise für die alternative Eingabemethode „Swype“ eine Ergänzung der Lernfunktion: „Neue Wörter, die man der Tastatur „beibringt“, werden mit der Cloud synchronisiert und können so von mehreren Geräten zugleich genutzt werden“.

Außerdem stehen diese erlernten Begriffe dann über die Cloud den Diktat-Apps zur Verfügung.

Das Thema NLU wird auch bei Fernsehgeräten immer wichtiger. Smart-TVs, mit denen der Anwender das Netz durchsurft auf der Suche nach neuen Videoinhalten, könnten durch natürliche Spracherkennung sehr viel komfortabler werden. „Schon heute ist es möglich, etwa in einer YouTube-App dem Gerät zu sagen „Such mir Videos von Lady Gaga“ — solche Funktionen werden künftig noch erweitert“, so Schmald.

Ganz ähnlich wie die Terminverwaltung unter Siri habe man demnach bald die Möglichkeit, dem Fernseher Kommandos dieser Art zu geben: „Bitte nimm mir den Tatort morgen Abend im Ersten auf“. Automatisch wird der digitale Videorekorder entsprechend konfiguriert. „Das sind keine Visionen, sondern konkrete Pläne für die nähere Zukunft“, verspricht man uns.

Auf ähnliche Art und Weise will man auch die Kommunikation aus dem Auto heraus vereinfachen. SMS von unterwegs — und zwar ohne dafür auch nur ein Auge von der Straße, nur einen Finger vom Lenkrad zu nehmen. Alles per Spracheingabe. Dank NLU soll das dann auch direkt beim ersten, statt beim gefühlt 20. Mal funktionieren. Man hat ja so seine Erfahrungen mit sprachgesteuerten Fahrzeugsystemen gemacht.

Nina — Kundendienst ganz ohne Mensch

Ein Bereich, mit dem wir wohl alle schon einmal in Berührung gekommen sind, ist die sprachgesteuerte Menüführung, etwa bei Support-Hotlines. Dieses Erlebnis will Nuance in Zukunft angenehmer gestalten. „Wir stellen uns mobile Apps als Ersatz für traditionelle Kundensupport-Hotlines vor“, erklärt Schmald.

Als Basis hierfür dient Nina – eine Art Siri für Kundendienst-Apps. Banken, Mobilfunkanbieter und ähnliche Dienstleister sind die Zielgruppe. Sie könnten das Nina-SDK in ihren Apps einsetzen und ihren Kunden so eine sprachgesteuerte Service-Anwendung präsentieren.

Sag mir, wie Du klingst und ich sag Dir, wer Du bist

Richtig spannend wird es aber beim Thema Stimmerkennung. Was heißt das genau? „Angenommen man kommt ins Wohnzimmer, ins Auto oder nimmt das Smartphone in die Hand und das Gerät erkennt anhand des Stimmprofils den Benutzer“. So wäre einerseits die stimmgesteuerte Kindersicherung von Fernsehern und anderen Multimedia-Geräten möglich. Die Eltern entscheiden, welche Programme die Kinder wann ansehen dürfen und die Flimmerkiste setzt das Fernsehverbot knallhart durch.

Gleichzeitig sind aber auch Komfortfunktionen möglich. Personalisierte Programm- und Filmempfehlungen, basierend auf bisherigem Zuschauerverhalten etwa. Und: „Das Auto könnte Sitzposition, Spiegeleinstellung und Lenkradhöhe je nach Fahrer automatisch einstellen“ — einfach einsteigen, „Hi, ich bin's“ sagen und schon weiß der Fahrbare Untersatz, wer gerade am Steuer sitzt.

Wie steht es denn mit der Verlässlichkeit solcher Systeme? Was, wenn man zum Beispiel einen Schnupfen hat oder heiser ist von den Gesängen aus der Fankurve am Wochenende? „Wir können, je nach Einstellung der relevanten Parameter, bis zu 99,9999 Prozent Sicherheit bieten. Das geht aber immer zu Last der Toleranz“, gibt Schmald zu bedenken.

Autohersteller und Banken müssen sich also überlegen, welches Risiko sie lieber eingehen wollen: Entweder man läuft Gefahr, ab und zu mal manuell die Sitze einstellen zu müssen. Wird die Erkennung etwas toleranter konfiguriert, können dafür eventuell andere Personen als vermeintlich Berechtigte erkannt werden. „Wir können in Abstimmung mit unseren Kunden natürlich jede beliebige Konfiguration wählen und sie jeweils auf die Anwendung oder das Gerät abstimmen.

Für bessere Verständigung: Ort und Kontext

In der näheren Zukunft können wir also Verbesserungen bei dem Verständnis unserer Sprachassistenten erwarten. „Es tut mir leid, ich habe Dich nicht verstanden“ soll eine immer seltenere Antwort werden. Wie könnte man die heutigen NLU-Assistenten klüger machen? „Wir arbeiten an verschiedenen Methoden zur Optimierung der Spracherkennung. Je nach Kontext oder Ort würden bestimmte Begriffe antizipiert und so einfacher verstanden“, erklärt Schmald.

Befinde ich mich zum Beispiel vor dem Brandenburger Tor, wird sich das Smartphone oder Tablet quasi vorsorglich ein paar relevante Begriffe zurechtlegen. So geht nicht nur die Suche schneller, es sinkt auch die Wahrscheinlichkeit, ins Leere zu fragen. Ganz ähnlich würde ein im TV-Gerät versteckter Assistent zu dem jeweils gezeigten Film Informationen bereithalten, besser verstehen und so schneller abrufen können. Schließlich liegt es nahe, dass man gerade in solchen Situationen nach Darstellern, Titeln oder Ähnlichem fragt.

Wer fragt nach dem Datenschutz?

Wir sollen also immer mehr unserer Daten aufgeben, um immer mehr Komfort zu erlangen. Ein Trend, der nicht erst heute begann, sondern seit einigen Jahren stetig an Bedeutung gewinnt. Spätestens seit der Omnipräsenz des Smartphones mit ständiger Netzanbindung sind wir es gewohnt, allen immer und überall mitzuteilen, was wir gerade tun und wo wir es tun. Wachsen da nicht die Bedenken, wenn Nuance solche Lösungen präsentiert?

„Eigentlich ist es genau umgekehrt. Wir hatten bei Vorstellungen solcher Technologien vor etwa eineinhalb Jahren noch häufigere Nachfragen und Sorgen, warum wir denn derartige Informationen benötigen und an die Server übermitteln. Heute fragen sich die Leute eigentlich nur noch, wie wir ein Problem gelöst haben.“ Von Skepsis und Datenschutzbewusstsein also scheinbar keine Spur mehr.

Damit ist nicht gesagt, dass im Falle von Nuance nun spezielle Bedenken angebracht wären. Aber ein verantwortungsvoller und vor allem bewusster Umgang mit unseren Daten kann uns helfen, sollte einmal jemand mit weniger lauteren Zielen daherkommen und uns nach unserem Aufenthaltsort fragen.

„Rolladen herunterlassen!“ — Automatisierte Haushalte noch Zukunftsmusik

Vielfach wurden uns vernetzte Kühlschränke, silberne Einheits-Raumanzüge und vernetzte Haushalte prophezeit. Aber wie sieht es in der Realität aus? Werden wir in ein paar Jahren mit Lichtschaltern, Herden und Rolladen sprechen? Reimund Schmald ist da vorsichtig:

„Haussteuerung per Sprachkommandos ist eine schöne Sache, birgt aber auch viele Hindernisse. Wo soll das Mikro installiert werden? Und wer soll es einbauen? Aktuell sind außerdem die Kosten für solche Systeme noch zu hoch, so dass der Markt und das zu erwartende Volumen denkbar gering sind.“

Realistisch seien jedoch Varianten, in denen Smartphones oder Tablets als Eingabegeräte fungieren. Ganz ähnlich, wie es jetzt bereits Apps für vernetzte Haushalte gibt, könnte ein „Licht an, Heizung auf 3, Rolladen hoch, Sportschau aufnehmen“ bald genügen, um bei der Heimkehr alles nötige zu veranlassen.

Auch mit Roboterherstellern sei man im Gespräch. Ein kleiner Blechkumpan könnte einem zum Beispiel auf Zuruf das Bier aus dem Kühlschrank holen, Staub saugen und als wandelndes Mikrofon und Schnittstelle zur Haustechnik dienen. Eigentlich müsste sich nur jemand finden, der für diesen Bereich die nötigen NLU-Datenbanken anlegt. Und zwar für jede Sprache einzeln. Keine leichte Aufgabe und für bislang nur wenige potentielle Kunden auch kaum lohnenswert.

Die Lücke zwischen Mensch und Maschine

Insgesamt geht die Entwicklung der Sprachsteuerung in eine Richtung, die uns immer kompliziertere Technik immer näher bringen soll. Schon heute gibt es Herde mit mehreren Dutzend Programmen, einem Haufen Funktionen, die viele Anwender sich nie erschließen und einer Bedienungsanleitung, deren Lektüre mehrere Generationen in Anspruch nimmt.

„Der Mensch kann nicht mehr mithalten. Es klafft eine immer größere Lücke zwischen dem Anwender und der Technik, vor allem im Haushalt. Diese Lücke soll mithilfe von Sprachsteuerung geschlossen werden“. Die meiste Arbeit soll also die Maschine übernehmen. Wir benutzen die Worte, die wir kennen um zu beschreiben, was wir von dem Gerät wollen. Das ist eine Zukunft, mit der ich mich anfreunden könnte.

Display beim iPhone kaputt? Kein Problem: Reparier es selbst mit dem GIGA & Fixxoo DIY-Set für die iPhone Display-Reparatur - schnell, einfach und preiswert!

Weitere Themen: iPhone 4s, Siri


Kommentare zu diesem Artikel

Neue Artikel von GIGA APPLE

Anzeige
GIGA Marktplatz