Robust Speech Recognition


German flag
British flag

Robuste Spracherkennung


Im Rahmen eines von der
DFG (deutschen Forschungsgemeinschaft) geförderten Projekts werden Untersuchungen zur robusten Spracherkennung angestellt.

Die meisten bisherigen Untersuchungen im Bereich der robusten Erkennung konzentrieren sich auf den Einfluß von Hintergundstörungen bei der Spracheingabe und/oder das Vorhandensein von Frequenzgangveränderungen durch ein Mikrofon oder einen Übertragungskanal.

Neben den zuvor erwähnten Störeinflüssen werden in diesem Projekt weitere Einflüsse der akustischen Umgebung bei der Spracheingabe und der Einfluß einer möglichen Übertragung über Telefonkanäle, insbesondere Mobilfunkkanäle, untersucht.
In der ersten Phase des Projekts wurde eine Simulationsumgebung entwickelt und realisiert, mit der

  • die hallige Umgebung eines Raumes im Fall von Freisprechen,
  • das Vorhandensein von Hintergrundstörungen,
  • die im Telefoniebereich typischen Frequenzgangveränderung und
  • die Übertragung über einen gestörten Mobilfunkkanal
simuliert werden können.

Um die Auswirkungen der einzelnen Störeinflüsse oder einer beliebigen Kombination akustisch "erfahrbar" zu machen, steht eine Internetseite zur Verfügung, die interaktiv die Einstellung der Störparameter ermöglicht und die Bearbeitung einer eigenen Sprachprobe erlaubt. Hier gibt es eine Verbindung zu dieser Internetseite.

In der nächsten Phase des Projekts werden die Auswirkungen der einzelnen Störeinflüsse als auch einer Kombination von Einflüssen auf die Spracherkennung untersucht. Dabei erfolgt eine Beschränkung auf Situationen der Spracheingabe, wie sie in den für den sinnvollen, praktischen Einsatz von Spracherkennungsystem typischen Fällen auftreten. Es werden beispielsweise das Freisprechen in einem Kraftfahrzeug oder in einer Büroumgebung betrachtet. Dabei kann die Spracheingabe zur Steuerung lokaler Geräte oder zum Abruf von Informationen über Telefon erfolgen.

In den späteren Phasen des Projekts werden neue Ansätze untersucht, die auf einer Kombination der Adaption der Referenzmuster und der Verwendung von robusten akustischen Merkmalen beruhen.


Robust Speech Recognition


Investigations are carried out in the field of robust speech recognition that are funded by the German research community (DFG).

Most of the work in the area of robust recognition has a focus on the effect of background noise during speech input and/or the  presence of spectral modifications due to the microphone or the transmission channel.

Besides the mentioned effects further effects are investigated in this project that are caused by the acoustic environment during speech input  or by the transmission over telephone channels, especially cellular channels. 
A simulation tool has been developed and realized during the first phase of the project. This can be used to simulate

  • the reverberant environment in case of a hands-free speech input in a room,
  • the presence of background noise,
  • typical spectral modifications due to the use of telephone equipment and
  • the transmission over a distorted cellular channel.
A Web page has been designed to experience this tool acoustically for your own speech file. The page allows the adjustment of several parameters to define the distorted acoustic scenario. You find the link to the Web page here.

The influence on the performance of speech recognition systems will be studied in the next phase of the project. The effect of each single distortion parameter as well as of a combination will be investigated. There will be a restriction to situations as they occur in relevant practical applications of speech recognition systems. This can be e.g. the hands-free speech input in a car or in an office environment with the goal of controlling devices in the car or room or for information retrieval from a telephone server.

Later on new approaches will be investigated in this project that are based on a combination of adapting the reference patterns and using robust acoustic features.