FHprofUnt-Logo

Logo BMBF

 

 

 

 


 

 

Titel des Projekts:

 

Robuste Spracherkennung in gestörter Umgebung durch die Kombination einer robusten Merkmalsextraktion und einer Adaption der Referenzmuster


Laufzeit: Juli 2008 bis Juni 2011

 

gefördert durch das BMBF (Bundesministerium für Bildung und Forschung) im Rahmen des Förderprogramms FHProfUnd

 

Partner:


 

Logo teleca

Firma Teleca Systems GmbH
Dr. Andreas Kießling
Neumeyerstraße 50
90411 Nürnberg

 

 

 

 

Institut für Kommunikationsakustik
Prof. Dr. Rainer Martin
Ruhr-Universität Bochum

 

 

 

 

 

Fraunhofer Institut für Intelligente Analyse- und Informationssysteme
Dr. Joachim Köhler
Schloss Birlinghoven
53754 St. Augustin

 

 

 

 

Ziele

Das Ziel dieses Vorhabens ist die Kombination zweier bisher getrennt betrachteter Ansätze zur Verbesserung der Erkennung gestörter Sprachsignale. Die beiden prinzipiellen Ansätze zur Erhöhung der Robustheit sind

  • eine Bestimmung robuster akustischer Merkmale und
  • die Adaption der Referenzmuster auf die jeweilige Störsituation.

 

Als Störungen werden

  • das Auftreten von Störgeräuschen im Hintergrund und
  • die Eingabe der Sprache in der halligen Umgebung eines Raumes im Freisprechmodus betrachtet.

 

 

Arbeitsabschnitte

Das Projekt ist in verschiedene Arbeitsphasen unterteilt, von denen die nachstehend beschriebenen bisher bearbeitet wurden:

 

Phase 1: Definition der akustischen Szenarien, die im Rahmen des Projekts untersucht werden.

Es wird die Spracheingabe

  • im Freisprechmodus in einem fahrenden Kraftfahrzeug, z.B. zur Steuerung eines Navigationssystems oder eines Telefons, und
  • im Freisprechmodus in einer räumlichen Umgebung, z.B. zur Steuerung elektronischer Geräte im Wohnzimmer, betrachtet.

Arbeitsbericht zu Phase 1

 

Phase 2: Auswahl von Sprachdatensammlungen und Definition von Spracherkennungsexperimenten zur Untersuchung der festgelegten akustischen Szenarien.

 

  • Es wird die Erkennung englischer Ziffernketten (Aurora-5, TIDigits), deutscher Ziffernketten (RVG, SpeechDatCar) und italienischer Kommandowörter (SpeeCon) betrachtet. Die Spracheingabe in den entsprechenden akustischen Szenarien wird entweder simuliert, oder es sind reale Aufnahmen in den akustischen Umgebungen vorhanden. Zur Simulation wurden Raum-Impulsantworten in Kraftfahrzeugen und in Räumen meßtechnisch bestimmt.
  • Das Programmpaket HTK (Hidden Markov Model Toolkit der Universität Cambridge) als auch eigene Analyse- und Erkennungsmodule werden zur Durchführung der Erkennungsexperimente eingesetzt.

Arbeitsbericht zu Phase 2

 

Phase 3: Entwicklung eines Verfahrens zur Erkennung gestörter Sprachsignale auf der Basis einer Extraktion robuster akustischer Merkmale.

 

  • Es wurde ein Verfahren zur Extraktion robuster akustischer Merkmale entwickelt, das auf einem am Institut für Kommunikationsakustik an der Ruhr Universität Bochum entwickelten Verfahren zur Verbesserung gestörter Sprachsignale basiert. Dabei wird eine Filterung des gestörten Signals im Spektralbereich vorgenommen, wobei die Filtercharakteristik mit dem Ansatz einer "cepstralen Glättung" bearbeitet wird. Die gefilterten Kurzzeitspektren werden logarithmiert und nach einer Mel-Filterung in den Cepstralbereich transformiert. Neben den Cepstral Koeffizienten wird aus den gefilterten DFT Spektren ein Energieparameter bestimmt. Mit Hilfe der im vorherigen Abschnitt festgelegten Erkennungsexperimente konnte die gute Verwendbarkeit dieses Ansatzes zur Verbesserung der Erkennung gestörter Sprachsignale aufgezeigt werden.
  • Neben der Betrachtung additiver Störsignale im Hintergrund wurden auch verschiedene Ansätze zur Kompensation des Einflusses einer Spracheingabe im Freisprechmodus in räumlichen Umgebungen untersucht. Dabei konnte kein Ansatz gefunden werden, der sich mit vertretbarem Aufwand als weiterer Verarbeitungsblock in das Verfahren zur Extraktion robuster Merkmale integrieren läßt. Die Ergebnisse dieser Untersuchungen wurden in einem eigenen Arbeitsbericht zusammengefasst.
  • Da sich das Verfahren zur robusten Merkmalsextraktion nicht um einen Verarbeitungsbock zur Kompensation des Einflusses einer Spracheingabe im Freisprechmodus erweitern ließ, wurden die Möglichkeiten einer Kombination der robusten Merkmalsextraktion und einer Adaption der HMMs auf die akustische Veränderung durch eine Eingabe im Freisprechmodus untersucht. An Hand der entsprechenden Erkennungsexperimente konnte aufgezeigt werden, dass sich mit dieser Kombination die Erkennung gestörter und im Freisprechmodus aufgenommener Sprache deutlich verbessern läßt.

Arbeitsbericht zu Phase 3


Phase 4: Herleitung von Möglichkeiten der Kombination eines auf einer robusten Merkmalsextraktion basierenden und eines auf einer HMM Adaption beruhenden Erkennungssystems.

 

  • Die Erkennungsergebnisse, die sich mit zwei Erkennungsverfahren für die im 2. Arbeitsabschnitt festgelegten Experimente erzielen lassen, wurden verglichen. Als Erkennungssysteme wurden das in der vorherigen Phase entwickelte, auf einer robusten Merkmalsextraktion beruhende Verfahren und ein bereits zuvor entwickeltes, auf einer HMM Adaption basierendes Verfahren betrachtet. Dabei stellte sich heraus, dass bei vielen sprachlichen Äußerungen einer der beiden Erkenner ein richtiges Ergebnis liefert, in denen das andere Erkennungssystem ein fehlerhaftes Ergebnis produziert. Daraus lässt sich ein Potential zur Verbesserung der Erkennung durch den parallelen Betrieb zweier Erkennungssysteme ableiten. Basierend auf einer Literaturrecherche bereits vorhandener Ansätze werden Möglichkeiten aufgezeigt, die beiden Erkennungssysteme oder die beiden Erkennungsergebnisse zu kombinieren.

Arbeitsbericht zu Phase 4


Phase 5: Untersuchung verschiedener Ansätze zur Kombination einer robusten Merkmalsextraktion und einer Adaption der Referenzmuster.

 

  • Es wurden zwei Verfahren zur Kombination der Erkennungsergebnisse des auf der robusten Merkmalsextraktion und des auf der HMM Adaption beruhenden Erkennungssystems untersucht. Bei dem ersten Verfahren, bei dem ein Vergleich der Teilergebnisse der erkannten Wortfolgen der beiden Erkenner und eine zusätzliche Bestimmung von Vertrauensmaßen für die entsprechenden Wortfolgen durchgefuhrt wird, werden aus den Vertrauensmaßen Wahrscheinlichkeiten abgeleitet, die das kombinierte Erkennungsergebnis festlegen. Der zweite Ansatz berücksichtigt neben den erkannten Wortfolgen auch noch die zeitlichen Informationen, wann welches Wort von dem jeweiligen Erkennungssystem erkannt wurde. Bei beiden Ansätzen lässt sich in allen betrachteten Störbedingungen durch die Kombination der Erkennungsergebnisse eine Reduktion der Fehlerraten erzielen. In einigen Störsituationen ist die Verbesserung allerdings jedoch nur geringfügig.

Arbeitsbericht zu Phase 5


Phase 6: Entwicklung eines skalierbaren Erkennungsverfahrens in Abhängigkeit zur Verfügung stehender Hardware Ressourcen und Vergleich des Erkennungsverfahrens mit kommerziellen Produkten.

 

  • Die beiden im Rahmen des Projekts entwickelten und optimierten robusten Erkennungssysteme wurden mit der Leistungsfähigkeit von Erkennungssystemen verglichen, die als integraler Bestandteil einiger kommerziell verfügbarer Geräte aus dem Bereich der Kommunikationstechnik eingesetzt werden. Bei den Geräten aus dem Bereich der Kommunikationstechnik handelt es sich um zwei Freisprecheinrichtungen, die für den festen Einbau in Kraftfahrzeugen konzipiert wurden, ein Navigationssystem sowie ein Smartphone. Alle Systeme verfügen über die Option einer Spracherkennung von Ziffern und Ziffernketten zum Aufbau einer Telefonverbindung. Es wurde ein Testaufbau entwickelt, mit dem man in einem reflexionsarmen Raum die Worterkennungsraten der Geräte bei Verwendung einer Sammmlung gesprochenen Folgen deutscher Ziffern bestimmen kann. Man stellt fest, dass die Spracherkennung in der gestörten Umgebung eines Kraftfahrzeugs bei den beiden Freisprecheinrichtungen und dem Navigationssystem recht gut funktioniert. Mit den im Labor entwickelten Systemen lassen sich vergleichsweise bei den meisten Störbedingungen noch etwas höhere Erkennungsraten erzielen.

Arbeitsbericht zur Leistungsfähigkeit der Spracherkennung in einigen Geräten der Kommunikationstechnik

 

 

  • Die Leistungsfähigkeit der in diesem Projekt verwendeten und entwickelten Erkennungssysteme wurde in den vorherigen Projektberichten bereits ausführlich dargestellt. Hierbei wurde in Tests eine Vielzahl an unterschiedlichen Störumgebungen eingesetzt, um einen vollständigen Uberblick über die Leistungsfähigkeit der Systeme zu vermitteln. Im letzten Projektabschnitt wird abschließend die Verwendbarkeit der robusten Systeme auf Rechnersystemen mit beschränkten Hardware-Ressourcen abgeschätzt. Dazu wurden die beiden robusten Erkennungssysteme mit einem Profiling-Tool untersucht, um die Anzahl der benötigten Instruktionen der einzelnen Funktionsblöcke pro Sekunde zu ermitteln. Aus der Anzahl der Instruktionen pro Sekunde wird anschließend ein vom Test-Rechnersystem unabhängiger Wert berechnet, der einen unabhängigen Vergleich mit anderen Rechnersystemen ermöglicht. Werden nun Rechnersyteme mit beschränkten Hardware-Ressourcen betrachtet, stellt man fest, dass die entwickelten Erkennungssysteme prinzipiell auch auf aktuellen Systemen mit beschränkten Hardware-Ressourcen eingesetzt werden können.

Arbeitsbericht zu Phase 6

 

 

 

Studentische Arbeiten im Rahmen des Projekts

 

Titel der Arbeit

 

Autor

Datum

Art der Arbeit

Inhalt

Entwicklung einer Schaltung zur Steuerung und Zustandserfassung über USB sowie eines Web-Interfaces mit einer zentralen Datenbank zur internetbasierten Schaltungsansteuerung“

PDF

M. Dittrich

12/08

Diplomarbeit


Entwicklung einer Steuerungseinheit, mit der von einem PC aus per USB elektrische Verbraucher ein- und ausgeschaltet werden können


Robuste Spracherkennung mittels der italienischen SPEECON- Datenbank“

PDF

F. Hackemesser

01/09

Bericht Projektseminar


Untersuchungen zur Verwendung der italienischen SPEECON Datenbank für Spracherkennungsexperimente im Rahmen des Projekts


Robuste Erkennung gestörter Sprachsignale mit in gestörter Umgebung trainierten Referenzmustern und einer Adaption auf die individuellen Störbedingungen“

PDF

A. Kitzig

02/09

Masterthesis


Untersuchungen zur Verbesserung der Erkennung gestörter Sprachsignale durch automatische Selektion von Referenzmustern, die in einer vergleichbaren Störsituation trainiert wurden


Testing of non-stationary noise suppression method

PDF

P. Ros

07/09

Bericht Projektsemester


Untersuchungen zur Verbesserung der Erkennung durch zusätzliche "Garbage"-Modellen, mit denen nicht-stationäre Störungen modelliert werden


Entwicklung eines Verfahrens in MATLAB und C zur Schätzung des Spektrums der Hintergrundstörung bei Sprachsignalen“

PDF

T. Wetschko

08/09

Diplomarbeit


Entwurf eines auf dem EM Algorithmus beruhenden Verfahrens zur Schätzung des Spektrums einer stationären Hintergrundstörung


Entwicklung eines Verfahrens in C und MATLAB zur Verbesserung gestörter Sprachsignale“

PDF

M. Minor

08/09

Diplomarbeit


Implementierung eines Verfahrens zur Störreduktion mit einer cepstralen Glättung der Charakteristik eines Wiener Filters


Improving Automatic Speech Recognition for a Speech Input in hands-free Mode Inside Rooms

PDF

B. Meng

09/10

Masterarbeit


Verbesserung der HMM Adaption bei einer Spracheingabe im Freisprechmodus durch Optimierung eines Modells zur Simulation des Nachhalls



Entwicklung eines Verfahrens mit Matlab zur Kombination zweier Spracherkennungssysteme


PDF

D. Sehlhoff

02/11

Diplomarbeit

Kombination zweier robuster Spracherkennungsysteme zur Senkung der Wortfehlerrate


Entwicklung einer Automatenbedienung mit einer leistungsfähigen Spracherkennung und einer graphischen Benutzerschnittstelle unter C++


PDF

J. Zitzer

07/11

Masterarbeit

Praktischer Einsatz von robusten Spracherkennungssystemen zur Bedienung von Farkkarten- und Parkhausautomaten per Spracheingabe