Speech Recognition System


German flag
British flag

Das Ziel der automatischen Spracherkennung ist die Erkennung bestimmter Inhalte eines Sprachsignals durch eine Extraktion relevanter akustischer Merkmale aus dem Sprachsignal. Die extrahierten Merkmale werden mit den in Referenzmustern hinterlegten Merkmalen verglichen, wobei die in einem Referenzmuster enthaltenen Merkmale in einer vorausgehenden Trainingsphase bestimmt werden. Aus dem Referenzmuster, dessen Merkmale den aus dem Sprachsignal extrahierten am ähnlichsten sind, kann auf den erkannten Inhalt, beispielsweise nur ein Wort im Fall einer Erkennung von Kommandowörtern, geschlossen werden.

Die eigenen Arbeiten konzentrieren sich auf das Arbeitsgebiet der "robusten" Spracherkennung. Die Leistungsfähigkeit von Spracherkennungssystemen verschlechtert sich beispielsweise deutlich bei Vorhandensein von Hintergrundstörungen oder einer Veränderung der Frequenzcharakteristik des Sprachsignals durch den Frequenzgang eines Mikrofons oder eines Übertragungskanals.

Es gibt verschiedene Ansätze zur Erhöhung der Robustheit eines Erkennungssystems. Die am häufigsten verwendeten sind

  1. die Extraktion robuster akustischer Merkmale,
  2. die Adaption der Referenzmuster auf die aktuelle akustische Umgebung
Ein Beispiel für eine Sprachanalyse zur Extraktion robuster akustischer Merkmale ist ein von ETSI (European Telecommunications Standards Institute) im Jahr 2002 standardisiertes Verfahren. Dabei handelt es sich um eine auf einer Cepstralanalyse beruhende Verarbeitung des Sprachsignals, die um zwei weitere Verarbeitungsblöcke zur Gewinnung robuster Merkmale bei Vorhandensein von Hintergundstörungen und von Frequenzgangveränderungen erweitert wurde. Die zusätzlichen Verarbeitungsblöcke beinhalten eine Wiener Filterung des Sprachsignals sowie eine blinde Schätzung  und Kompensation des Frequenzgangs. Eine exakte, algorithmische Beschreibung mit einer exemplarischen Realisierung in Form von C Code findet man bei ETSI unter Angabe der Kurzbezeichnung des Standards  "ES 202212".

Im Rahmen eigener Arbeiten ist ein Spracherkennungsverfahren entwickelt und aufgebaut worden, bei dem die in den Referenzmustern enthaltenen spektralen Merkmale auf die jeweilige akustische Umgebung bei der Spracheingabe adaptiert werden. Dazu werden das Störspektrum als auch eine Frequenzgangveränderung bei jeder Spracheingabe neu geschätzt. Eine Veröffentlichung, in der das Verfahren detailliert beschrieben wird, kann hier eingesehen werden.

Seit April 2004 werden im Rahmen eines von der DFG (deutschen Forschungsgemeinschaft) geförderten Projekts weitergehende Untersuchungen zur robusten Spracherkennung angestellt. Eine Vorstellung des Projekts wird hier vorgenommen.


Automatic speech recognition aims at the recognition of certain contents in the speech signal. This is realized by extracting relevant acoustic features out of the speech signal. The extracted features are compared to features stored in reference patterns that have been determined in a preceeding training phase. The recognized contents, e.g. only a word in case of a simple command word recognition, can be derived from this pattern whose features are most similar to the ones extracted out of the speech signal.


The own work focusses on the specific field of "robust" recognition. The performance of most recognition systems deteriorates considerably in the presence of background noise or in case of spectral modifications of the speech signal due to the frequency characteristics of a microphone or a transmission channel.

Different approaches exist to improve the robustness of a recognition system. Most often used are

  1. the extraction of robust acoustic features,
  2. the adaptation of the reference patterns to the current acoustic environment.

In 2002 ETSI (European Telecommunications Standards Institute) has standardised a method that can be seen as an example for a speech analysis technique with the goal of extracting robust features. It is based on a cepstral analysis of the speech signal that has been extended by two further processing blocks.  One is a type of Wiener filtering to extract robust spectral features in the presence of background noise. The other one is a blind estimation of an unknown frequency characteristic to compensate the spectral modifications of the speech. An exact description of the algorithm with an exemplary realization as C code can be found at ETSI by searching for the abbreviation "ES 202212".
 
A speech recognition technique has been developed and implemented as part of our own work that is based on an adaptation of the spectral features that are contained in the reference patterns. The features are adapted to the current acoustic environment during the  speech input. The spectrum of the noise as well as the modification of the frequency characteristics are estimated as parameters for the adaptation each time. A paper describing the details of this method is available here.

Since April 2004 further investigations are carried out in the field of robust recognition. This project is funded by the DFG (German research community). More details about the project can be found here.