Feature: Von IBM Shoebox bis Siri: 50 Jahre Spracherkennung

Berlin (dpa) - Der Wortschatz des ersten Spracherkennungssystems war noch sehr begrenzt: Die „Shoebox“ des Computerkonzerns IBM erkannte gerade einmal 16 Worte: Es waren die Zahlen von null bis neun und außerdem die mathematischen Anweisungen „minus“, „plus“, „subtotal“, „total“, „false“ und „of“.

Vor fünfzig Jahren (21. April 1962) wurde der IBM-Rechner in der Größe einer Schuhschachtel auf der Weltausstellung in Seattle der breiten Öffentlichkeit vorgestellt. Im Schatten der futuristischen Space Needle sah das staunende Publikum, wie die Maschine die gesprochene Rechenaufgabe „Fünf plus drei plus acht plus sieben plus vier minus neun, zusammen“ auf Englisch verstehen und die korrekte Antwort „17“ ausspucken konnte. Zu diesem Zeitpunkt war IBM noch fast 20 Jahre von der Entwicklung des ersten Personal Computers entfernt.

Nimmt man es ganz genau, ist die maschinelle Spracherkennung sogar noch zehn Jahre älter. 1952 entwickelten die amerikanischen Bell Laboratories das System „Audrey“, das einzelne Zahlen erkennen sollte. „Man musste zwischen den Zahlen aber lange Pausen machen, damit Audrey die Ziffern überhaupt verstehen konnte“, sagt Prof. Hans Uszkoreit vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Berlin.

Der nächste Meilenstein der Spracherkennung wurde in den siebziger Jahren an der Carnegie Mellon University mit massiver Förderung durch das US-Verteidigungsministerium und seiner Agentur DARPA erzielt. „Harpy“ beherrschte mit gut 1000 Worten den Sprachschatz eines Dreijährigen. Und es dauerte dann weitere zehn Jahre, bis die nächste Entwicklungsstufe erreicht werden konnte. Die Forscher ließen in den achtziger Jahren ihr System nun nicht mehr einzelne gesprochene Worte analysieren, sondern betrachteten ganz Wortfolgen.

Auf der Basis des nach dem russischen Mathematiker Andrej Markov benannten „Hidden Markov Model“ wurde berechnet, wie hoch die statistische Wahrscheinlichkeit ist, dass ein bestimmtes Wort einem anderen folgt. So können die Systeme ähnlich klingende Sätze besser unterscheiden. „Die Wortfolge "Ich putze mir die Nase" ist eben wahrscheinlicher als "Ich putze mir die Vase"“, erläutert Experte Uszkoreit.

In den neunziger Jahren erreichte die Spracherkennung den Personal Computer: Damals konkurrierten IBM, Dragon, Philips, der belgische Spezialist Lernout & Hauspie und Microsoft mit ihren Programmpaketen zur Spracherkennung um die Kunden. Nach dem Platzen der „Internet-Blase“ im Jahr 2000 folgte am Markt eine schwierige Konsolidierungsphase.

Lernout & Hauspie kaufte im Jahr 2000 Dragon Systems, ein Jahr später übernahm Scansoft die Spracherkennungstechnologie der Belgier inklusive des Markennamens Dragon Naturally Speaking. Im September 2005 wiederum übernahm Scansoft die Firma Nuance und benannte sich dann in Nuance Communications an. In den vergangenen zehn Jahren übernahm Nuance wiederum eine lange Liste von kleineren Spezialfirmen. Dort landeten auch die Spracherkennungstechnologien von IBM und Philips.

Den PC- und Smartphone-Programmen von Nuance bescheinigen Experten bei standardisierten Diktieraufgaben, wie sie in einer Rechtsanwaltskanzlei oder Arztpraxis anfallen, eine äußerst hohe Trefferquote. Bei kreativen Texten lohnt dagegen der Einsatz der Diktierprogramme wegen der höheren Fehlerquote nicht immer.

Neue Bewegung in die Branche brachten Sprachverarbeitungssysteme im vergangenen Jahr wie Siri von Apple, das auf dem iPhone 4S die Rolle eines persönlichen digitalen Assistenten einnimmt. Siro geht auf ein Forschungsprojekt zurück, das von der US-Militärbehörde DARPA finanziert und dann in eine eigene Firma ausgegründet wurde - bevor sich Apple im Jahr 2010 die Firma für schätzungsweise 200 Millionen Dollar einverleibte. Bei Siri werden die aufgezeichneten Töne über das Netz an einen Server übertragen und dort analysiert. Die Antworten des Systems werden dann wiederum auf das iPhone zurückgespielt.

Ähnlich funktionieren auch Spracherkennungssysteme von Google und Microsoft, die mit kleinen Mikrofon-Symbolen im Browser dem Web das Zuhören beigebracht haben. Auch hier landen die gesprochenen Daten auf Servern in den USA und tragen dazu bei, dass die Erkennungsquote der Systeme ständig verbessert werden kann. Letztlich arbeiten aber auch die ausgeklügelten Systeme von Apple, Google und Microsoft nach den statistischen Analysemethoden der neunziger Jahre.

Insbesondere bei Google arbeiten Forscher aber schon an der nächsten Generation der Spracherkennung, bei der komplette Sätze nach ihrer Bedeutung untersucht werden. „Es ist kein Zufall, dass Google intern den Bereich "Suche" in "Knowledge" (Wissen) umbenannt hat“, sagt Spracherkennungsexperte Uszkoreit. Wenn Spracherkennungssysteme die Bedeutung der Worte und Sätze lernen, wird vielleicht auch die Vision Wirklichkeit, die Microsoft-Begründer Bill Gates in seinem Buch „Der Weg nach vorn“ schon für das Jahr 2007 vorausgesagt hatte, nämlich dass man sich mit Maschinen fast so natürlich unterhalten kann wie mit Menschen.