Aufbereitung von Spracherkennerausgaben
- Type:Masterarbeit
- Supervisor:
- Person in Charge:Sven Scheu
- Add on:
Successful
- Links:Links_bearbeiten
-
Die Entwicklung von humanoiden Robotern ist eins der meistbeachteten Forschungsgebiete der Informatik. Moderne Vertreter, wie der am KIT entwickelte ARMAR-III, sind heute in der Lage als Haushaltshelfer zu fungieren. Über ein Dialogsystem können dem Roboter ihm bekannte Aufgaben gestellt werden. Selbst für Laien stellt dies keine Herausforderung dar. Soll der Roboter jedoch neue, komplexe Techniken erlernen, muss dies von einem Spezialisten implementiert werden.
Um Roboter alltagstauglich zu machen wäre es jedoch wünschenswert, wenn der Nutzer dem Roboter neue Anweisungsfolgen beibringen bzw. einprogrammieren könnte. Aus diesem Grund entwickelt das IPD-Tichy in Zusammenarbeit mit dem Institut für Anthropomatik ein System zur Programmierung von humanoiden Robotern mittels natürlicher Sprache.
Um gesprochenen Befehle verarbeiten zu können, müssen diese zunächst in Text überführt werden. Man spricht von einer Transkription, die im Projekt durch einen oder mehrere automatische Spracherkenner (ASR) erzeugt wird. In einer Studie mit projektbezogen Sprachaufnahmen wurde festgestellt, dass gute ASRs circa 17% Wortfehler erzeugen. Um die Transkriptionen zur Programmierung zu nutzen, muss diese Fehlerrate deutlich gesenkt werden. Ziel der Arbeit ist es, die Weiterverarbeitung der Transkriptionen zu erleichtern. Hierzu sollen zunächst die Wortfehler in den Transkriptionen reduzieren werden. Hierzu soll ein System entwickelt werden, welches mehrere Hypothesen aufstellt und diese anschließend mithilfe eines Ensembles von Bewertungsfunktionen die beste auswählt. Anschließend sollen Strategien zur zusätzlichen Optimierung der Transkriptionen, wie Erkennung von Hesitationswörtern oder Befehlsgrenzen, entworfen und implementiert werden.