Werde Teil der Community - Registriere dich jetzt kostenlos! | Login
Anzeige
 

Sprachassistenten: "Siri ist State of the Art, Google Now hat eindrucksvolle Funktionen"

Siri, Google Now und Cortana heißen derzeit die Sprachassistenten auf den Smartphones dieser Welt. Die kleinen Helferlein geben sich alle Mühe, zu verstehen, was der Anwender von ihnen will. Was hier genau im Hintergrund passiert, ist allerdings für viele Anwender noch immer ein Mysterium. Wir haben uns deshalb mit Dr. Georg Rehm vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Berlin getroffen, um mehr über Sprachsteuerung, interaktive Systeme, Dialogsysteme und alles, was dahinter steckt, zu erfahren

Dr. Georg Rehm vom DFKI | (c) Mara von Ferne

Dr. Georg Rehm vom DFKI | (c) Mara von Ferne

AM: Guten Tag Herr Dr. Rehm, vielen Dank schon einmal für ihre Zeit. Geben Sie uns doch einmal einen kurzen Einstieg in Ihre Arbeit und die Sprachtechnologie an sich.

Dr. Georg Rehm: Das sind ganz unterschiedliche Dinge. Wir haben zuletzt etwa versucht, dem Thema Sprachtechnologie - speziell mehrsprachigen Technologien, d.h. maschinellen Übersetzungsverfahren - zu mehr Sichtbarkeit auf der Ebene der Europäischen Kommission und des Europaparlaments zu verhelfen. Das macht man nicht über Grammatik und Semantik, sondern darüber, aufzuzeigen, welche Anwendungen mit diesen Technologien möglich sind. Wir haben in unserem Projekt META-NET über 100 Anwendungsvisionen gesammelt und drei davon ausgewählt. Das generelle Ziel ist dabei immer, einen Mehrwert für den europäischen Bürger zu liefern, wobei das Überwinden von Sprachbarrieren bei uns einen Schwerpunkt darstellt. Auch finanzielle Aspekte können Anreize schaffen. Hochqualitative, präzise und effiziente maschinelle Übersetzungsverfahren könnten den europäischen Institutionen rund 1 Milliarde Euro im Jahr sparen.

AM: Welches konkrete Ziel verfolgen Sie in Brüssel und Luxemburg derzeit?

GR: Eine Art Übersetzungsplattform, wir nennen sie "Translingual Cloud", soll über beliebige Programme und Endgeräte ansteuerbar sein. Auch menschliche Übersetzer können dort ihre Dienstleistungen einbringen. Dazu kommen Social Intelligence und E-Participation, die Informationen, Meinungen, Probleme und auch Problemlösungen aus Social Networks extrahieren oder spezielle Diskussionsplattformen unterstützen, die auf semantischen Verfahren beruhen. Was denkt zum Beispiel Deutschland über die Atomkraft oder die Energiewende? Solche Dinge ließen sich automatisiert ermitteln, und zwar über Sprachgrenzen hinweg. In einer nächsten Ausbaustufe sind intelligente Diskussionsforen denkbar, die automatisch übersetzen, neue Argumente erkennen und sammeln und auf diese Weise das Finden von Lösungen erleichtern. Socially Aware Interactive Assistants sollen durch die Analyse von gesprochener Sprache die beiden andere großen Technologiebereiche verbinden, indem intelligente, proaktive Assistenten zur Verfügung gestellt werden, die die Nutzerin oder den Nutzer von Device zu Device begleiten. Genaueres hierzu gibt es übrigens in der Strategischen Forschungsagenda, die wir im Rahmen von META-NET gemeinsam mit 200 Experten erstellt haben.

AM: Und wo kommen dann Siri & Co. ins Spiel?

GR: Auf dem Smartphone, Tablet oder PC sind viele Anwendungsfälle für eher einfache interaktive Systeme, volle Dialogsysteme und Sprachtechnologien allgemein denkbar und teilweise ja auch längst vorhanden. Die Skype-Demo mit Echtzeit-Übersetzung, die Microsoft kürzlich vorgeführt hat, zeigt das ja ziemlich eindrucksvoll. Maschinelle Übersetzung von gesprochener zu gesprochener Sprache kann man aber noch weiter treiben, etwa mit der Erkennung der Stimmfarbe, des Duktus des Sprechers, um nicht nur den Inhalt zu übersetzen, sondern auch den Sprecher so genau wie möglich zu simulieren bzw. zu imitieren. Das ist wichtig, um die eigene Persönlichkeit in die synthetisierte Stimme zu transferieren und auf diese Weise für mehr Akzeptanz beim Anwender zu sorgen - an diesem Thema wird derzeit aber noch geforscht. Siri ist dafür ein guter Ausgangspunkt: Siri ist derzeit State of the Art, was interaktive Systeme angeht, d.h. Siri ist nah dran am Stand der Kunst, was man aktuell machen kann. Google Now bietet auch einige eindrucksvolle Funktionen. Cortana von Microsoft ist derzeit noch nicht ausführlich zu beurteilen.

AM: Ist es eine Schwäche von Siri, dass sie, wie kürzlich zu lesen war, angeblich keine künstlichen neuronalen Netze zur Verarbeitung einsetzt?

GR: Die Technologie im Hintergrund ist erst einmal kein Nachteil an sich, sie funktioniert wie eine Blackbox. Das können neuronale Netze sein, aber auch statistische Methoden, regelbasierte Ansätze oder eine Mischung davon - hybride Verfahren. Wichtig ist, was hinten raus kommt, was die Software also in der Lage ist, zu leisten. Schwierig ist zum Beispiel die Auflösung von Anaphern, also beispielsweise im Satz "Pedro hat einen Esel, er schlägt ihn." Als Mensch weiß man intuitiv, dass nur Pedro schlagen kann, nicht der Esel. Für die Maschine ist das schon beinahe der Heilige Gral der maschinellen Analyse von Sprache: Es existieren zwar Ansätze für die Analyse solcher anaphorischen Ausdrücke, vollständig gelöst ist das Problem jedoch noch längst nicht. Auch den Kontext einzubeziehen ist alles andere als trivial.

AM: Wie schlägt sich dabei Siri?

GR: Ein einzelner Satz bereitet in der Regel schon viele Herausforderungen, aber semantische Analysen über mehrere Sätze hinweg zu erledigen, ist weitaus schwieriger, sowohl in der textbasierten Sprachtechnologie als auch in Dialogen. Frage ich etwa Siri "Wie ist das Wetter in Hamburg?", warte die Antwort ab und frage danach "Und in Zürich?", bekomme ich aufgrund des Kontextes - die Anfrage nach dem Wetter in einer Stadt - auf die unterspezifizierte zweite Frage dennoch eine passende Antwort. Das funktioniert tatsächlich! Die vorherige Frage bleibt als Dialogkontext im System erhalten. Obwohl es trivial klingt, ist es mit viel Aufwand verbunden. Manchmal versagt dieser Mechanismus allerdings auch.Das Ziel ist, wegzukommen von konkreten Kommandos und dazu, dass mich das Gerät tatsächlich versteht. Ich stelle mir das schwierig vor, das in Echtzeit, also ohne lange Berechnungen, zu schaffen.

AM: Wie viel Infrastruktur und wie viel Arbeit steckt da im Hintergrund?

GR: Das ist der springende Punkt. Was bei Siri - das ich besser kenne als Google Now - passiert, ist, dass die Anfrage aufgenommen, extrem komprimiert und zusammen mit den Kontextdaten des Telefons - etwa Uhrzeit und Ort - an ein Rechenzentrum geschickt wird. Die Anfrage wird, soweit wir das aktuell beurteilen können, abseits der Aufzeichnung und Komprimierung im Gerät überhaupt nicht angefasst. Hier arbeitet Apple mit dem international größten Spezialanbieter zusammen, der über sehr gute und sehr robuste Lösungen für die Verarbeitung gesprochener Sprache verfügt. Die Anfrage wird nun von gesprochener Sprache, also von einem Tonsignal, in geschriebene Sprache konvertiert - wir sprechen hier von Speech-to-Text - und danach von dem eigentlichen System verarbeitet, das Kommandos erkennt und entsprechend reagieren kann. Es wird eine Antwort generiert und an das Telefon zurückgeschickt, entweder als Datensatz, der im Telefon synthetisiert wird, oder als fertiges Soundfile. All das passiert nahezu in Echtzeit! Aus dieser mit Rauschen, Nuscheln und Nebengeräuschen durchsetzten Aufzeichnung muss die eigentliche Sprache herausgelesen werden - was bereits hervorragend funktioniert, diese Funktion wird ja schon oft beim Diktieren von E-Mails oder SMS benutzt. Der im Hintergrund betriebene Aufwand - sowohl in Sachen Forschung und Entwicklung als auch in Sachen eingesetztes Personal - ist immens, sowohl bei Apple als auch bei Google.

AM: Nicht nur das zeigt die Relevanz des Themas Sprachsteuerung. Die Bedienung über die Sprache erzeugt am Ende ja eine neuartige Form der Interaktion mit dem Rechner, die etwa auch für Menschen mit Handicap gewisse Grenzen einreißt.

GR: Exakt. Die Kommunikation mit digitalen Endgeräten - das Smartphone ist für mich nur ein Anwendungsfall eines Dialogsystems zur Mensch-Maschine-Kommunikation - wird immer weiter ausgebaut. Schon vor langer Zeit, etwa 2001/2002, hatte ich ein Mobiltelefon, damals von Sony, mit dem man auch "reden" konnte - mit speziellen Kommandos und wenn man sehr, sehr deutlich gesprochen hat. Etwa "Rufe an" - dann wurde mehrere Sekunden gerechnet - "Heiko" - "Helmut?" - "Nein, Heiko!" Sehr frustrierend, allerdings sind Eigennamen ein überaus komplexes Problem. Was sich auf diesem Gebiet in den vergangenen zehn Jahren getan hat, ist enorm, auch bei der Rechenpower in den Geräten.

AM: Ist diese Rechenleistung im Endgerät denn eigentlich nötig?

GR: Eigentlich nicht, denn die Verarbeitung braucht noch viel mehr Leistung und riesige Datenmengen, die es derzeit nur in großen Rechenzentren gibt. Die schnelle Verbindung vom Handy dorthin, etwa über LTE oder im WLAN, ist hier das A und O. Es wird derzeit viel investiert in die Konfiguration und Erweiterung solcher Dialogsysteme. Das klingt einfach, ist aber hochgradig komplex.

AM: Warum das?

GR: Von Mensch zu Mensch kann man über alles Mögliche sprechen, solange man sich mit dem Thema ein bisschen auskennt. Man kann sogar über Themen sprechen, mit denen man sich überhaupt nicht auskennt. Um dieses Frage-Antwort-Verhalten zu antizipieren, muss das Programm verstehen, was der Anwender von ihm will, etwa eine Nachricht vorlesen, eine Funktion starten oder ähnliches. Das alles muss in Form von symbolischen Regeln, statistischen Wahrscheinlichkeiten, neuronalen Netzen oder einer Kombination daraus erfasst, berechnet und bearbeitet werden. So wird dann beispielsweise das Kommando "Zeig mir meine neuen E-Mails" intern umgewandelt in "Starte Programm XY". Der nächste Schritt ist dann, einen Dialog zu ermöglichen, etwa: "Habe ich neue E-Mails?" - "Ja." - "Bitte vorlesen." - "Welche soll ich vorlesen, oder soll ich alle vorlesen?" Das sollte dann im besten Fall auch Nutzer-abhängig sein, etwa wenn der Anwender immer Zusammenfassungen der Mails anfordert, wird diese Option ab dem dritten Aufruf automatisch gewählt. Die Maschine sollte letztlich selbst merken, was wahrscheinlich gewünscht ist. Die Maschine könnte sogar aktiv auf den Nutzer zugehen, um ihn etwa auf kommende Termine hinzuweisen - "Wenn du nicht innerhalb von drei Minuten aufbrichst, kommst Du zu spät zu Deinem nächsten Termin, denn derzeit gibt es in Berlin Mitte viele Staus!"

AM: Also so, wie es etwa Google Now mit der Karten-Ansicht macht?

GR: Genau, aber im besten Fall soll das Gerät eben von selbst losreden und tätig werden. Dazu muss es entscheiden können, was wichtig ist und was nicht. Für ein solches proaktives Verhalten benötigte der Assistent von morgen aber noch mehr Zugriff auf die Daten des Anwenders, von Kalenderdaten über den Inhalt von Nachrichten, den Standort von Kontakten, die Wichtigkeit von Kontakten und ähnliches.

Im zweiten Teil des Interviews mit Dr. Georg Rehm befassen wir uns mit der Frage des Datenschutzes und schauen in die Zukunft der Sprachassistenten.

Weitere Interviews:

Autor: Steffen Herget
Kommentar schreiben

Die Kommentarfunktion ist hier leider nur für angemeldete Benutzer freigegeben.

Du bist nicht dabei?
Werde Teil der Community
Registriere Dich jetzt kostenlos! | Login
Sichere Dir Deinen Usernamen, damit Deine Beiträge und Bewertungen nicht verloren gehen.
 
Kommentare

Es wurden noch keine Kommentare abgegeben.

Anzeige
Aktuelle Geräte im Test
Anzeige