|
|
Das Ziel der automatischen Spracherkennung ist die Erkennung bestimmter Inhalte eines Sprachsignals durch eine Extraktion relevanter akustischer Merkmale aus dem Sprachsignal. Die extrahierten Merkmale werden mit den in Referenzmustern hinterlegten Merkmalen verglichen, wobei die in einem Referenzmuster enthaltenen Merkmale in einer vorausgehenden Trainingsphase bestimmt werden. Aus dem Referenzmuster, dessen Merkmale den aus dem Sprachsignal extrahierten am ähnlichsten sind, kann auf den erkannten Inhalt, beispielsweise nur ein Wort im Fall einer Erkennung von Kommandowörtern, geschlossen werden. Die eigenen Arbeiten
konzentrieren sich auf das Arbeitsgebiet der "robusten" Spracherkennung.
Die Leistungsfähigkeit von Spracherkennungssystemen verschlechtert sich
beispielsweise deutlich bei Vorhandensein von Hintergrundstörungen oder
einer Veränderung der Frequenzcharakteristik des Sprachsignals durch
den Frequenzgang eines Mikrofons oder eines Übertragungskanals. Es gibt verschiedene
Ansätze zur Erhöhung der Robustheit eines Erkennungssystems. Die
am häufigsten verwendeten sind
Ein Beispiel für eine Sprachanalyse zur Extraktion
robuster akustischer Merkmale ist ein von ETSI (European Telecommunications
Standards Institute) im Jahr 2002 standardisiertes Verfahren. Dabei handelt
es sich um eine auf einer Cepstralanalyse beruhende Verarbeitung des Sprachsignals,
die um zwei weitere Verarbeitungsblöcke zur Gewinnung robuster Merkmale
bei Vorhandensein von Hintergundstörungen und von Frequenzgangveränderungen
erweitert wurde. Die zusätzlichen Verarbeitungsblöcke beinhalten
eine Wiener Filterung des Sprachsignals sowie eine blinde Schätzung
und Kompensation des Frequenzgangs. Eine exakte, algorithmische Beschreibung
mit einer exemplarischen Realisierung in Form von C Code findet man bei ETSI unter Angabe der Kurzbezeichnung des
Standards "ES 202212".
Im Rahmen eigener Arbeiten ist ein Spracherkennungsverfahren
entwickelt und aufgebaut worden, bei dem die in den Referenzmustern enthaltenen
spektralen Merkmale auf die jeweilige akustische Umgebung bei der Spracheingabe
adaptiert werden. Dazu werden das Störspektrum als auch eine Frequenzgangveränderung
bei jeder Spracheingabe neu geschätzt. Eine Veröffentlichung,
in der das Verfahren detailliert beschrieben wird, kann hier eingesehen werden. Seit April 2004 werden im Rahmen eines von der DFG
(deutschen Forschungsgemeinschaft) geförderten Projekts weitergehende
Untersuchungen zur robusten Spracherkennung angestellt. Eine Vorstellung des Projekts wird hier vorgenommen. |
Automatic speech recognition aims at the recognition of certain contents in the speech signal. This is realized by extracting relevant acoustic features out of the speech signal. The extracted features are compared to features stored in reference patterns that have been determined in a preceeding training phase. The recognized contents, e.g. only a word in case of a simple command word recognition, can be derived from this pattern whose features are most similar to the ones extracted out of the speech signal.
Different approaches exist to improve the robustness of a recognition system. Most often used are
In 2002 ETSI (European Telecommunications Standards
Institute) has standardised a method that can be seen as an example for
a speech analysis technique with the goal of extracting robust features.
It is based on a cepstral analysis of the speech signal that has been extended
by two further processing blocks. One is a type of Wiener filtering
to extract robust spectral features in the presence of background noise.
The other one is a blind estimation of an unknown frequency characteristic
to compensate the spectral modifications of the speech. An exact description
of the algorithm with an exemplary realization as C code can be found at
ETSI by searching for the abbreviation
"ES 202212". Since April 2004 further investigations are carried
out in the field of robust recognition. This project is funded by the DFG
(German research community). More details about
the project can be found here. |