Alles hört auf mein Kommando: Sprachsteuerung für Computer
Berlin/München (dpa/tmn) - Einkaufslisten, Adressbuch und Termine: Smartphone und PC sind für viele längst eine Art Privatsekretär. Im Gegensatz zu echten Menschen hören die Geräte bisher allerdings nur manchmal aufs Wort.
In Zukunft soll sich das ändern.
Visionäre stellen sich die Zukunft der Sprachsteuerung gerne paradiesisch vor: „Bitte den nächsten Supermarkt anfahren, Rasierwasser und Feta-Käse auf die Einkaufsliste setzen, ein Bahnticket für die Fahrt am Sonntag nach Nürnberg buchen und eine E-Mail an die Bank schreiben“. So oder so ähnlich könnte man in Zukunft tatsächlich sein Leben organisieren - und das ganz ohne lästiges Tippen und Klicken, zum Beispiel im Auto.
In dieser Form ist Sprachsteuerung zwar noch Zukunftsmusik. Einige Anwendungen gibt es aber schon heute. Auf Smartphones und Tablets gehört die Funktion zum Beispiel inzwischen zum Standard. Aber auch Spielkonsolen und Navigationsgeräte hören aufs Wort, ebenso PC-Programme. „Selbst Fernsehgeräte sind schon mit Sprachsteuerung verfügbar, wenn auch nur einige Topmodelle“, sagt Michael Schidlack vom IT-Verband Bitkom. In manchen Bereichen hat sich die Sprachsteuerung bereits als unverzichtbare Lebenshilfe etabliert, zum Beispiel als Eingabehilfe für Behinderte.
Apples iPhone und iPad lassen sich mit einem Siri genannten System verbal steuern, auch Google und Microsoft haben in ihren Betriebssystemen Android und Windows Phone Sprachkommandos untergebracht. Die Funktionen sind vielfältig: Internetsuche, Kalender, Wecker, Öffnen von Apps, Ortsnavigation, Spielergebnisse der Bundesliga oder Zugriff auf Mails, Kontakte und Telefon. „Selbst wenn das Betriebssystem eine Funktion nicht anbietet, gibt es inzwischen genug Apps, die eine eigene, integrierte Spracherkennung mitbringen“, erklärt Moritz Stückler vom Technikmagazin „t3n“.
Die Unterschiede zwischen den Herstellern liegen im Detail. Manche Bereiche der Sprachsteuerung sind bei Apple ausgereifter: „Siri kann einen Tisch im Restaurant reservieren, sofern das Lokal eine Online-Buchung akzeptiert“, nennt Dennis Steimels von der Zeitschrift „PC Welt“ ein Beispiel. Bei Android legen Hersteller wie Samsung teils eigene Nutzeroberflächen über das Originalsystem. So hat das Galaxy S3 zum Beispiel die eigene Sprachfunktion S-Voice. „Damit können Sie sogar die Kamera auslösen, indem Sie "Aufnehmen" oder "Bitte lächeln" sagen“, erklärt Steimels.
Dass Sprachsteuerung heute auf Smartphones so viel besser funktioniert als vor einigen Jahren, hat vor allem mit dem Zauberwort Cloud Computing zu tun - dem Datenverkehr über fremde Computer, der „Wolke“. „Anstatt die relativ komplexe Analyse der Sprache in den verhältnismäßig leistungsschwachen Geräten vorzunehmen, findet sie in leistungsfähigen Server-Systemen statt“, erklärt Moritz Stückler das Prinzip. Dies hat jedoch einen wesentlichen Nachteil: Die Geräte müssen online sein. Ohne Netzverbindung keine Sprachsteuerung.
Sprachsteuerung funktioniert aber nicht nur mit Computern für unterwegs, sondern auch am Rechner zu Hause. Unter Windows können Nutzer zum Beispiel schon seit Vista nicht nur Text diktieren, sondern auch Kommandos zum Öffnen von Programmen oder zum Kopieren und Einfügen von Dateien sprechen. Ähnliches bietet auch OS X für Apple-Rechner.
Und selbst im Auto werden längst immer mehr Funktionen des Bordcomputers per Sprachsteuerung geregelt. Das soll nicht nur die Bedienung vereinfachen, sondern auch die Sicherheit erhöhen: „Der Fahrer muss die Hände nicht mehr vom Lenkrad nehmen und kann sich auf die Fahrbahn konzentrieren“, sagt Stückler. So ruft der Bordcomputer zum Beispiel auf Zuruf die Familie zu Hause an oder wählt ein neues Navigationsziel aus. Der Autofahrer nimmt dabei nie den Blick von der Straße.
Hundertprozentig verlässlich sind die verschiedenen Arten der Sprachsteuerung aber noch nicht, sagt Dennis Steimels: „Nicht immer versteht die Software das, was wir sagen, oder sie versteht etwas völlig Falsches und möchte uns auf einmal in ein anderes Land navigieren, obwohl wir nur den nächsten Bäcker suchen.“
Auch Hintergrundgeräusche wie Lautsprecherdurchsagen an öffentlichen Orten werden bisher eher schlecht gefiltert und können den gesprochenen Befehl stören. Längere und komplexe Sätze verstehen die Systeme ebenfalls nur schlecht. Besser werden könnte das, wenn die Software den Nutzer künftig an seiner Stimme erkennt: „Apple und Google gehen bereits in die Richtung, dass die Programme die Nutzer kennenlernen und auf die Bedürfnisse und Vorlieben reagieren“, sagt Steimels.
Wer mit seiner deutschen Sprachsteuerung nicht zufrieden ist, kommt mit der englischen Variante vielleicht besser zurecht - entsprechende Sprachkenntnisse vorausgesetzt. „Zumindest im Mobile-Segment fließen die meiste Arbeit und die meisten Ressourcen in die Analyse der englischen Sprache“, erklärt „t3n“-Redakteur Stückler. Grund dafür ist nicht nur der große internationale Absatzmarkt, sondern auch der eher einfache Aufbau der englischen Sprache.