PC, Handy, Navi: Trends bei der Spracherkennung

Berlin (dpa/tmn) - Das erste Spracherkennungssystem von IBM beherrschte vor 50 Jahren gerade einmal 16 Worte. Heute kann man mit Spracherkennungsprogrammen Texte mit erstaunlich wenig Fehlern diktieren sowie Smartphones oder Navigationssysteme bedienen.

Aus dem Arbeitsalltag vieler Rechtsanwälte und Ärzte sind Spracherkennungssysteme schon seit geraumer Zeit nicht mehr wegzudenken. Aber aktuelle Programme wie Dragon NaturallySpeaking 11.5 richten sich ausdrücklich auch an Anwender, die nur gelegentlich einen Text verfassen müssen oder schnell einen Eintrag auf Facebook platzieren möchten. Außerdem erobert die Spracherkennung die Smartphones und Tablet Computer.

Noch vor der Entwicklung der ersten PCs versuchte IBM, Systeme für die maschinelle Erkennung gesprochener Sprache zu entwickeln. Die „IBM Shoebox“ aus dem Jahr 1961 erkannte jedoch nur 16 Worte: die Zahlen von Null bis Neun und außerdem die mathematischen Anweisungen „minus“, „plus“, „subtotal“, „total“, „false“ und „of“.

IBM gehörte auch in den 80er und 90er Jahren mit ViaVoice zu den führenden Anbietern von Spracherkennungsprogrammen, fokussierte sich dann aber auf große gewerbliche Anwendungen, wie sie beispielsweise in Call Centern zum Einsatz kommen. Die ViaVoice-Technologie für Privatanwender und kleinere Unternehmen landete bei Nuance, dem Hersteller der Dragon-Programme.

„Kein Profi käme darauf, mit einer anderen Lösung zu diktieren“, sagt Michael Spehr, der als Fachredakteur über Technik-Themen bei der „Frankfurter Allgemeinen Zeitung“ berichtet. Neben der Windows-Programmfamilie Dragon NaturallySpeaking bietet Nuance inzwischen eine Lösung für das Macintosh-System von Apple (Dragon Dictate 2.5) an.

Die Technologie von Nuance wird auch von etlichen Autoherstellern verwendet. Im Auto geht es darum, das Mobiltelefon ohne unfallträchtige Fummelei zu bedienen oder das Navigationssystem kurz und knapp anzuweisen, dass man nach Hause fahren möchte. „Als Autokäufer muss man aber aufpassen, denn manche Hersteller bieten auch aktuelle Modelle mit einer veralteten Spracherkennung an, die etwa nicht die Zieleingabe beim Navi in einem Rutsch ermöglicht“, sagt Fachmann Spehr.

Bei der Spracherkennung auf dem Handy war Google der Vorreiter. Seit 2009 gibt es „Google Search by Voice“ für Android. „Die Google-Computer filtern dabei wichtige Segmente aus dem Gesagten heraus, analysieren einzelne Wörter und Silben und gleichen das Gesagte mit den wahrscheinlichsten Ausdrücken ab“, erläutert Google-Sprecher Stefan Keuchel. „Diese werden dann im Internet gesucht und die Ergebnisse zurück an das Handy gesendet. Das alles passiert in wenigen Sekunden.“

Inzwischen funktioniert die Google-Suche mit gesprochener Sprache nicht nur auf einem Android-Smartphone, sondern auch auf dem iPhone: „Bei der Google-App für das iPhone genügt es, das Telefon ans Ohr zu halten. Google liefert dann wie gewohnt eine Seite mit Suchergebnissen“, erläutert Keuchel. Eine gesprochene Suchanfrage funktioniert mit Stichworten, kann aber beispielsweise auch für das Umrechnen von Währungen („300 Dollar in Euro“) oder Maßeinheiten („2,5 Zoll in Zentimeter“) verwendet werden. Mit „Google Voice Actions“ kann man das Smartphone auch sprachgesteuert bedienen, um beispielsweise SMS-Nachrichten zu verfassen, Anrufe zu tätigen oder Navigationsziele einzugeben. „Mit Voice Actions hat sich das Volumen der Sprachsuchen versechsfacht“, berichtete Google-Forscher Vincent Vanhoucke dem US-Blog Mashable.

Google-Konkurrent Microsoft hat in sein System Windows Phone 7 ebenfalls eine Spracherkennung eingebaut. Die deutsche Version beherrscht aber nur den Aufruf eines Kontaktes oder die Eingabe einer Telefonnummer sowie das Öffnen von Programmen, die auf dem Windows Phone installiert sind. Mit der US-Version von Windows Phone kann man mit seiner Stimme auch eine Suche starten.

Die Spracherkennung im Apple-Smartphonesystem iOS hat bislang ihre Grenzen und kommt nicht an die Google-Sprachsuche oder die Voice-Actions heran. Allerdings wird das neue Apple-Betriebssytem iOS 5, das in diesem Herbst auf den Markt kommt, eine deutlich verbessere Spracherkennung bieten. Apple arbeitet dem Vernehmen nach mit Marktführer Nuance zusammen.

Einen Vorgeschmack auf die systemweite Funktion geben bereits heute die Dragon-Apps im iTunes App Store. Mit Dragon Search kann man mündlich Suchanfragen bei Google, YouTube, Twitter und Wikipedia absetzen. Dragon Dictation funktioniert als mobiles Diktiergerät, das die gesprochenen Sätze in schriftliche Texte umwandelt. Und die App Dragon Remote Microphone verwandelt das iPhone in ein externes Mikrofon für die Dragon-Anwendungen auf dem PC oder Mac.