|
|
Robuste Spracherkennung
Die meisten bisherigen Untersuchungen im Bereich der robusten Erkennung konzentrieren sich auf den Einfluß von Hintergundstörungen bei der Spracheingabe und/oder das Vorhandensein von Frequenzgangveränderungen durch ein Mikrofon oder einen Übertragungskanal. Neben den zuvor erwähnten Störeinflüssen
werden in diesem Projekt weitere Einflüsse der akustischen Umgebung
bei der Spracheingabe und der Einfluß einer möglichen Übertragung
über Telefonkanäle, insbesondere Mobilfunkkanäle, untersucht.
Um die Auswirkungen der einzelnen Störeinflüsse oder einer beliebigen Kombination akustisch "erfahrbar" zu machen, steht eine Internetseite zur Verfügung, die interaktiv die Einstellung der Störparameter ermöglicht und die Bearbeitung einer eigenen Sprachprobe erlaubt. Hier gibt es eine Verbindung zu dieser Internetseite. In der nächsten
Phase des Projekts werden die Auswirkungen der einzelnen Störeinflüsse
als auch einer Kombination von Einflüssen auf die Spracherkennung untersucht.
Dabei erfolgt eine Beschränkung auf Situationen der Spracheingabe,
wie sie in den für den sinnvollen, praktischen Einsatz von Spracherkennungsystem
typischen Fällen auftreten. Es werden beispielsweise das Freisprechen
in einem Kraftfahrzeug oder in einer Büroumgebung betrachtet. Dabei
kann die Spracheingabe zur Steuerung lokaler Geräte oder zum Abruf von
Informationen über Telefon erfolgen. In den späteren
Phasen des Projekts werden neue Ansätze untersucht, die auf einer Kombination
der Adaption der Referenzmuster und der Verwendung von robusten akustischen
Merkmalen beruhen. |
Robust Speech
Recognition
Most of the work
in the area of robust recognition has a focus on the effect of background
noise during speech input and/or the presence of spectral modifications
due to the microphone or the transmission channel. Besides the mentioned
effects further effects are investigated in this project that are caused
by the acoustic environment during speech input or by the transmission
over telephone channels, especially cellular channels.
The influence on the performance of speech recognition systems will be studied in the next phase of the project. The effect of each single distortion parameter as well as of a combination will be investigated. There will be a restriction to situations as they occur in relevant practical applications of speech recognition systems. This can be e.g. the hands-free speech input in a car or in an office environment with the goal of controlling devices in the car or room or for information retrieval from a telephone server. Later on new
approaches will be investigated in this project that are based on a combination
of adapting the reference patterns and using robust acoustic features. |