Werde Teil der Community - Registriere dich jetzt kostenlos! | Login
Anzeige
 

Sprachassistenten: "Künftig sprechen wir mit Kühlschrank und Waschmaschine"

Im zweiten Teil unseres Hintergrundgesprächs mit dem Computerlinguisten und KI-Experten Dr. Georg Rehm unterhalten wir uns darüber, welche Auswirkungen die gesteigerte Bedeutung von sprachgesteuerten Assistenten hat – einmal in Sachen Privatsphäre und Datenschutz, aber auch im Hinblick auf die Weiterentwicklung und andere Bedienkonzepte für das Internet of Things.

Dr. Georg Rehm vom DFKI | (c) Privat

Dr. Georg Rehm vom DFKI | (c) Privat

Im ersten Teil dieses Interviews, den ihr über diesen Link öffnet, geht es darum, wie sprachgesteuerte Assistenzdienste wie Apple Siri und Google Now funktionieren und was sie leisten können.

Areamobile: Herr Dr. Rehm, ist es nicht ein zweischneidiges Schwert, einen sprachgesteuerten Assistenten zu haben, der auf alle meine Daten zugreifen kann? Wenn man einzelne Teile der Informationen ausklammern würde, um seinen Datenschutz zu wahren, könnte dieser Assistent ja nicht mehr zuverlässig funktionieren, da ihm Zusammenhänge fehlen. Sehen Sie da Schwierigkeiten?

Dr. Georg Rehm: Er könnte vielleicht noch immer agieren, wäre aber im Funktionsumfang deutlich eingeschränkt. Er müsste sich wie ein Mensch verhalten und mit den vorhandenen Informationen die möglichen Entscheidungen fällen. Eine Forschungsfrage wird zukünftig sein, wie eine solche Robustheit gegenüber fehlenden Daten implementiert und transparent dargestellt werden kann, welche Daten des Anwenders gespeichert werden und welche nicht. Der Nutzer sollte in die Lage versetzt werden, einzelne Teile seines eigenen Daten-Profils ausblenden zu können.

AM: Daten hin, Daten her: Durch die maschinelle Übersetzung hat die Technologie ja auch eine starke verbindende Funktion. Wird es noch lange dauern, bis ich etwa mit einem Franzosen telefonieren kann und beide Gesprächspartner werden ohne Zeitverzug simultan und automatisch übersetzt?

GR: Ein kleiner interner Spaß unserer Forschungs-Community besagt, dass die perfekte maschinelle Übersetzung nur noch fünf Jahre entfernt ist - dies galt übrigens schon in den frühen 80er Jahren! Diese sehr optimistische Einschätzung bezieht sich nur auf geschriebene Sprache, was deutlich weniger Schwierigkeiten mit sich bringt als gesprochene Sprache, von Hintergrundgeräuschen über abgebrochene Sätze bis hin zu "ääh", "hmm" und so weiter. Es wird sicher noch etwas länger als fünf Jahre dauern, bis Software zur Verfügung steht, die ähnlich komfortabel genutzt werden kann wie Siri oder Google Now und dabei eine hochqualitative und robuste Übersetzung gesprochener Sprache in Echtzeit liefert.

AM: Das sollte dann natürlich auch für jeden kostenlos nutzbar sein, oder?

GR: Eine vorzügliche Frage. Wir arbeiten schon seit Jahren eng mit der Europäischen Kommission zusammen und führen Forschungsprojekte zu Übersetzungstechnologien durch. Während durch diese Unterstützung der Kommission bereits viele gute Technologien entstanden sind, z.B. die Software Moses, ist noch sehr viel Arbeit zu leisten. Hier ist etwa die Integration von Semantik in das aktuelle Paradigma der statistischen maschinellen Übersetzung zu nennen - oder gar die Erarbeitung eines ganz neuen Paradigmas, das dann wiederum ganz neue Möglichkeiten bieten könnte. Für die schon erwähnte Translingual Cloud stellen wir uns vor, dass es sowohl kostenfreie als auch kostenpflichtige Dienste geben kann. Aktuelle Prototypen von Forschungszentren oder Doktoranden beispielsweise könnten kostenfrei zur Verfügung stehen, während die Übersetzungen von spezialisierten Unternehmen, die auch die Ergebnisse menschlicher Übersetzer einbeziehen, nur gegen eine Gebühr erhältlich sind.

AM: Das bliebe dann aber alles nicht auf eine Form der Kommunikation beschränkt, oder?

GR: Solche Dienstleistungen werden kommen, in unterschiedlicher Ausprägung, und sie werden auf dem Smartphone oder Tablet ebenso nutzbar sein wie auf dem Computer oder auf der Waschmaschine. Dann kann man mit dem griechischen Kühlschrank genauso reden wie mit dem eigenen Zuhause. Eine unserer Visionen ist ein sprachübergreifendes Netz, ein Translingual Web bzw. sogar ein Translingual Web of Things, sprachtransparente Kommunikation über und mit beliebigen Endgeräten. In ein paar Jahren hat man ein paar hundert Geräte zu Hause im WLAN, von der Waschmaschine über den Kühlschrank zur Waage, über Lampen und den Herd bis hin zum Computer und dem Smartphone. Wie wird man mit diesen Geräten sprechen? Wie bei Star Trek einfach in den Raum herein reden? Darauf zeigen? Das sind spannende Fragen aus dem Bereich der Mensch-Maschine-Interaktion, für die noch viele innovative Lösungen entwickelt werden müssen.

AM: Da wird sicher in verschiedenste Richtungen entwickelt, oder gibt es einen allgemeinen Masterplan?

GR: Es sind viele Alternativen denkbar und es wird derzeit viel experimentiert. Im Labor funktionieren Zeige-Gesten, die mit einer Kinect-Steuerung analysiert werden, bereits sehr gut. Hier ergeben sich viele Möglichkeiten, aber auch viele offene Fragen.

AM: Irgendwie muss etwa das Smartphone ja merken, wenn es angesprochen ist.

GR: Ja, genau. Es müsste etwa Unterhaltungen wie unsere gerade zwar verfolgen, aber ignorieren, bis wir etwas von ihm wollen, etwa die Wettervorhersage. Derzeit ist das nur mit eigenen Kommandos wie "OK Google" möglich. Ein immer eingeschaltetes Mikrofon sorgt ja auch für Probleme, alleine schon durch die Mikrofontechnologie. Das Mikrofon muss baubedingt sehr klein und trotzdem in der Lage sein, aus mehreren Metern Entfernung Sprache klar erkennen zu können. Das ist noch ein großes Problem derzeit.

AM: Könnten da Smartwatches helfen? Die sind ja immer in der Nähe, sind aber über Bluetooth mit dem Handy verbunden.

GR: Das kann in der Tat praktisch sein, auch weil eine Armbanduhr angenehmer und bekannter ist als ein klobiges Smartphone. Menschen akzeptieren außerdem Dinge leichter, die sie schon kennen. Deshalb halte ich es auch für möglich, dass es einen großen Schub für interaktive Systeme und Dialogsysteme gibt, sobald sich Smartwatches tatsächlich etabliert haben. Schließlich kann man bei diesen Geräten gar nicht anders, als auf die Sprachbedienung zu setzen, denn zum Tippen sind sie zu klein. Bei Android Wear wird sicherlich auch die Sprachausgabe bald folgen, die in der ersten Version ja noch fehlt. Der Rückkanal ist schließlich eine essentielle Komponente des Dialogsystems. Gegen meine Vermutung spricht, dass Nutzer in diesem Szenario gar keine andere Wahl hätten, als mit ihren intelligenten Uhren zu sprechen, was vielleicht etwas zu ungewöhnlich wäre - wer spricht schon mit seiner Uhr? Es wird sich zeigen, ob es für diesen ungewöhnlichen Benutzungsfall Barrieren und Hemmungen gibt. Vielleicht bleiben Smartwatches auch eher passive Geräte, die lediglich aktuelle Benachrichtigungen vom Telefon entgegen nehmen und dem Träger anzeigen.

AM: Es kommt einem beim Benutzen einer solchen Uhr tatsächlich komisch vor, wenn man damit redet, aber keine gesprochene Antwort bekommt.

GR: Man muss sich dabei aber vor Augen halten, dass der Mainstream-Nutzer diese Art von Technologie noch gar nicht richtig kennt. Wir sind alle vertraut mit Textverarbeitung, Spreadsheet, E-Mails gibt es auch schon seit über 25 Jahren. Sprache ist in diesem Zusammenhang etwas sehr Neues, daran müssen wir uns noch gewöhnen. Interessant dabei: Derzeit läuft Radio-Werbung für das Sprachinterface der Google-App. Google versucht die Leute anzuregen, die Voice-Steuerung auszuprobieren. Ich vermute, sie wollen den Menschen hier tatsächlichen den Angst-Faktor nehmen und sie zum Experimentieren einladen.

AM: Damit die Menschen diese Features nutzen, müssen sie aber auch funktionieren.

GR: Da gibt es natürlich noch zahlreiche Einschränkungen. Kann Siri eine bestimmte App ausführen oder mir meine Mails vorlesen? Wenn etwas nicht klappt, bin ich als Anwender schnell gefrustet. E-Mails kann Siri nämlich tatsächlich nicht vorlesen. Als Siri veröffentlicht wurde, habe ich das mehrfach versucht, es klappte aber einfach nicht. Dann habe ich gedacht, ich muss die Frage anders stellen, das klappte aber auch nicht. Und dann lässt man es auch schnell sein - aus Frust.

AM: Denken Sie, dass Anwender durch die Benutzung von einfachen Funktionen wie das Diktieren von Texten oder Vorlesen von SMS leichter an solche Technologien herangeführt werden können?

GR: Gerade das Diktieren von E-Mails ist ja nur ein ganz kleiner Bruchteil dessen, was Siri bieten soll. Letzten Endes ist die Diktierfunktion "nur" eine robuste Spracherkennung, Siri als Gesamtpaket hingegen ist eine Art einfaches Dialogsystem, ein interaktives System, das im besten Fall den Umgang mit sämtlichen Telefonfunktionen ermöglichen soll. Kurzum: Wenn die Spracherkennung gut funktioniert, senkt das sicher die Hemmschwelle, das System weiter auszuprobieren. Bei Standard-Software kann man sich leicht vorstellen, was das System kann und was nicht. Das ist bei einem komplexen System wie Siri, das keine visuelle Oberfläche bietet, als Ganzes viel schwieriger.

AM: Warum? Ist Siri zu komplex?

GR: Bei Siri ist es schwer, ein mentales Modell aufzubauen, das zeigt, was Siri kann oder nicht. Etwa war mir als regem Siri-Nutzer nicht bekannt, dass Siri in der englischen Version die Frage beantworten kann, welche Flugzeuge sich gerade über der eigenen Position befinden, z.B. mittels "Which planes are overhead?" Ich wäre niemals darauf gekommen, das auszuprobieren, wenn ich es nicht irgendwo gelesen hätte. Es ist cool, dass Siri auch auf solche ungewöhnlichen Fragen oder Befehle reagieren kann, aber weil der Funktionsumfang nicht in Gänze offen gelegt wird, ist es schwierig, die Möglichkeiten der Software zu erfassen. Bei den sich immer weiter steigernden Möglichkeiten der Sprachassistenten wird das wohl auch künftig zu bleiben.

Herr Dr. Rehm, vielen herzlichen Dank für das Gespräch.

Weitere Interviews:

Autor: Steffen Herget
Kommentar schreiben

Die Kommentarfunktion ist hier leider nur für angemeldete Benutzer freigegeben.

Du bist nicht dabei?
Werde Teil der Community
Registriere Dich jetzt kostenlos! | Login
Sichere Dir Deinen Usernamen, damit Deine Beiträge und Bewertungen nicht verloren gehen.
 
Kommentare
  1. 28.07.14 01:03 Laborant (Expert Handy Profi)

    Ich schau diesem vernetzten Heim ziemlich Skeptisch entgegen... so wie mein Kühlschrank manchmal gefüllt ist, ist es für Kamera/Gewicht/Dingsda-Sensoren unmöglich zu erkennen, wieviele Eier sich zwischen Gemüse, selbstgemachtem Sugo, onigiri, Bier, Yoghurt und anderem zeugs so Verstecken.
    Abenteuerlich wird es dann, wenn sich der Kühlschrank merkt: "Oha, zwei Karotten kamen raus, ein Schokoladenyoghurt wurde auch entnommen dazu zwei Essiggurken" und dabei eine automatische Bestellung für ein Kinderbett abgibt. :P

    Wenn ich selbst nachtragen muss, was ich entnehme, was ich im Kühlschrank haben will und überhaupt, kann ich auch einfach ein billiges AndroidTablet vorne ranschrauben.

    Die Waschmaschine soll meine Klamotten ohne Flecken hinbekommen.... was die jetzige erstaundlich gut hinbekommt. Ich will "Klappe zu, Programm Start, extra Vorwaschen" drücken können und dann solls losgehen. Das korrekte Waschmittel ist ohnehin kaum Maschinell rauszufinden, da kaum ersichtlich ist wie rauszufinden ob Textilie 13 in der Trommel einen Weichspüler verträgt.

    Der nächste Punkt wird dann wohl ein langsames, frickeliges Dreckstouchscreen-Menü mit Klickibunti-Menuführung für fünfzig Tipps und Chatfunktion für andere waschende Junggesellen, bei dem immer gerade dann ein Software-Update startet, wenn man gerade noch unter ziemlichem Zeitdruck eine Maschine klar machen will.

    Es ist grausam... ich fühl mich so Alt-Konservativ... aber ich will dass die Dinge funktionieren. Die Drölfzig Funktionen welche meine Schwester in ihrer neuen Küche am Kochherd hat sind mir zu kompliziert. Knubbel-Drehknopf: 1 wird heiss, 5 wird sehr heiss und 10 wird sehr sehr heiss. Das reicht... ist praktikabel und läuft zuverlässig ohne komplexe Elektronik, welche genau dann Kaputt geht, wenn man die imaginäre Schwiegermutter eingeladen hat. :P

    Oder wie es mein direkter Mitarbeiter immer so schön sagt: Es ist nicht alles sinnvoll, was technisch machbar ist :D

  2. 27.07.14 22:06 sabu (Advanced Handy Profi)

    Bin gespannt ob die Leute dann in ihre smartwatch rufen: kitt, wieviel eier habe ich noch, aber theoretisch wird es schon interessant wenn dein Smartphone weiß, was sich im kühlschrank befindet und deine einkaufsliste schreibt und das kann man noch weierspinnen.....Google versucht auch in diese nische zu gehen, Samsung könnte sich mit tizen von Google leicht entfernen, lg hat jetzt webos, vielleicht ja auch mit einem Hintergedanken und Microsoft muss sich überlegen wie ihr unternehmen aufgestellt sein will, diesen trend dürfen sie nicht verpennen, wobei denen es wehtun wird dass sie nicht federführend an der Schnittstellen arbeiten, das wird richtig interessant und Internet nochmal befördern

antworten
Anzeige
Aktuelle Geräte im Test
Anzeige