DFG Projekt (bis 2008)

Projekt zur robusten Spracherkennung mit Hilfe einer Aadption der Hidden Markov Modelle

Laufzeit: April 2004 bis Juni 2008

Förderung: durch die DFG (Deutschen Forschungsgemeinschaft)

Die nachstehend beschriebenen Arbeiten und Ergebnisse wurden auch in einem Abschlussbericht dokumentiert:

1) Simulation der Spracheingabe in einer gestörten Umgebung

Die meisten bisherigen Untersuchungen im Bereich der robusten Erkennung konzentrieren sich auf den Einfluß von Hintergundstörungen bei der Spracheingabe und/oder das Vorhandensein von Frequenzgangveränderungen durch ein Mikrofon oder einen Übertragungskanal.
Neben den zuvor erwähnten Störeinflüssen wurden in diesem Projekt weitere Einflüsse der akustischen Umgebung bei der Spracheingabe und der Einfluß einer möglichen Übertragung über Telefonkanäle, insbesondere Mobilfunkkanäle, untersucht. In der ersten Phase des Projekts wurde eine Simulationsumgebung entwickelt und realisiert, mit der

• die hallige Umgebung eines Raumes im Fall von Freisprechen,

• das Vorhandensein von Hintergrundstörungen,

• die im Telefoniebereich typischen Frequenzgangveränderung und

• die Übertragung über einen gestörten Mobilfunkkanal

simuliert werden können.

Um die Auswirkungen der einzelnen Störeinflüsse oder einer beliebigen Kombination akustisch "erfahrbar" zu machen, steht eine Internetseite zur Verfügung, die interaktiv die Einstellung der Störparameter ermöglicht und die Bearbeitung einer eigenen Sprachprobe erlaubt ==> Internetseite zur Störsimulation

2) Erzeugung gestörter Sprachdaten und Erkennungsexperimente

In der nächsten Phase des Projekts wurden die Auswirkungen der einzelnen Störeinflüsse als auch einer Kombination von Einflüssen auf die Spracherkennung untersucht. Dabei erfolgt eine Beschränkung auf Situationen der Spracheingabe, wie sie in den für den sinnvollen, praktischen Einsatz von Spracherkennungsystem typischen Fällen auftreten. Es werden beispielsweise das Freisprechen in einem Kraftfahrzeug oder in einer Büroumgebung betrachtet. Dabei kann die Spracheingabe zur Steuerung lokaler Geräte oder zum Abruf von Informationen über Telefon erfolgen. Als ein Ergebnis dieses Projektabschnitts wurde ein Teil der zur Durchführung der Untersuchungen erzeugten gestörten Sprachdaten in Form einer Sprachdatenbasis mit der Bezeichnung "Aurora-5" zusammengestellt. Aurora-5 beinhaltet gestörte Versionen der bekannten TIDigits Datenbasis, die Äußerungen englischer Ziffernfolgen von amerikanischen Sprechern beinhaltet ==> Informationen zu Aurora-5

Die Datenbasis steht den in diesem Bereich Forschenden zur Durchführung vergleichender Untersuchungen zur Verfügung. Die Bereitstellung erfolgt durch die zur Verteilung von Sprachdaten im europäischen Umfeld tätige Organisation ELRA (European Language Resources Association).

3) HMM Adaption zur Kompensation des Nachhalls

Als ein weiteres Ergebnis dieses Projekts wurde ein neues Verfahren zur Adaption der Hidden-Markov Modelle (HMMs), die als Referenzmuster zur Spracherkennung eingesetzt werden, entwickelt. Damit können die in den HMMs enthaltenen akustischen Merkmale auf eine Spracheingabe im Freisprechmodus in räumlichen Umgebungen angepasst werden. Der Nachhall tritt dabei als ein die zeitliche Struktur der Sprache verändernder Effekt auf. Basierend auf einem Modell, mit dem die zeitliche Veränderung des Energieverlaufs insgesamt und in spektralen Teilbändern beschrieben werden kann, werden die Energie und die spektralen Merkmalsparameter in den HMMs adaptiert. Damit lässt sich eine deutliche Verbesserung der Erkennungsraten bei einer Spracheingabe im Freisprechmodus erzielen.

Das Verfahren und die damit erzielten Erkennungsergebnisse werden vorgestellt in

• H.G. Hirsch: "Automatic Speech Recognition in Adverse Acoustic Conditions", Kapitel des Buchs "Advances in Digital Speech Transmission", Verlag John Wiley & sons, 2008

• H.G. Hirsch, Finster, H.: "A New Approach for the Adaptation of HMMs to Reverberation and Background Noise", Speech Communication, Vol.50, pp. 244-263, 2008.

4) Kombination einer Extraktion robuster akustischer Merkmale Spracherkennung mit der HMM Adaption

Abschließend konnte gezeigt werden, dass das neue Verfahren zur HMM Adaption auch mit einem bestehenden Verfahren zur Extraktion robuster akustischer Merkmale kombiniert werden kann. Bei dem Merkmalsextraktionsverfahren, das von ETSI standardisiert wurde, handelt es sich um eine Cepstralanalyse mit einem vorgeschalteten Störunterdrückungsverfahren. Durch die Kombination mit der HMM Adaption kann die Erkennung von Sprachsignalen, die in einer gestörten räumlichen Umgebung im Freisprechmodus aufgenommen werden, deutlich verbessert werden.