Chomsky-0-Parser
Kurzbeschreibung
In der Terminologie formaler Sprachen ausgedrückt gibt es in natürlichen Sprachen sowohl kontextabhängige Produktionen (zum Beispiel die Bildung der Oberflächenstruktur des Handelnden eines Satzes in Bezug auf die Position des Prädikates) als auch verjüngende (=unbeschränkte) Produktionen (Ellipsen). Leider werden von gängigen Zerteilern im besten Fall (Early/CKY) gerade einmal alle kontextfreien Grammatiken unterstützt. Ein Ziel dieses Projektes ist es herauszufinden, unter welchen Randbedingungen sich ein Parser für allgemeine Grammatiken (CH-0-Typ) realisieren lässt.
Die einfache Grundidee dieses Parsers ist es, die Sprache bis zu einer gewissen Ableitungstiefe zu erzeugen, die entstandenen Worte samt aller ihrer Ableitungsgraphen abzuspeichern und diese für den Zerteilungsprozess nur noch in einer großen Datenbasis nachzuschlagen. Formal gesehen ist damit ist der Zerteiler wegen des endlichen Wotschatzes weniger mächtig als ein endlicher Akzeptor. Allerdings lässt dieses Verfahren die Verwendung beliebiger Regeln in der Grammatik zu. Für Problemdomänen wie die Verarbeitung natürliche Sprachen, in denen eine beliebige aber feste Schranke sowohl in der Wortlänge (im formal-sprachtheoretischen Sinn) als auch in der Komplexität der Ableitung vermutet werden darf, könnte der Ansatz in Verbindung mit der Rechen- und Speicherkapazität heuteiger Rechnersysteme einen Vorteil gegenüber den herkömmlichen Ansätzen sein. Diese Frage zu überprüfen ist das Ziel dieses Projektes.