KIT - Prof. em. Dr. Walter F. TichyLectures - Thesis / Jobs - Successful - FlexiMail - Ein System zur selbstoptimierenden Kategorisierung von E-Mails

FlexiMail - Ein System zur selbstoptimierenden Kategorisierung von E-Mails

Type:Studienarbeit
Supervisor:
Dr. rer. nat. Alexander Paar
Person in Charge:Björn Keuter

Kategorisierungen werden in vielen Lebensbereichen vorgenommen, da diese eine Separierung von Dingen, Tätigkeiten oder Informationen erlauben, die wiederum Komplexes auf Vereinfachtes zuordnet. So können große Gesamtaufgaben durch eine Zuordnung von Teilen an jeweilige Experten für diese Teile offensichtlich beschleunigt und vereinfacht werden. Ebenso lassen sich kategorisierte Informationen schneller finden und bearbeiten. Jedoch sind die Zuordnungen selbst immer mit einem gewissen Maß an Aufwand herzustellen, der sich je nach Fall stark unterscheiden kann. So sind viele Arten von Kategorisierungen prinzipiell einfach für Menschen oder Maschinen durchführbar, wie z.B. eine Unterscheidung nach Farbe oder Größe, während andere Zuordnungen nur mit einem erhöhten Aufwand durchgeführt werden können. Hierzu gehört die Einteilung von Textinhalten in Klassen. Dies ist für Menschen in der Regel nur mit dem Aufwand des Lesens, welcher sich je nach Größe der Texte unterscheidet, möglich. Obwohl ein Mensch Textkategorisierungen durchführen kann, ohne dass die Texte vollständig gelesen werden müssen, muss dennoch ein gewisses Verständnis des Inhaltes erreicht werden. Für Maschinen stellt eben dies eine sehr hohe Hürde dar, weshalb eine automatische Textkategorisierung oft schwer zu verwirklichen ist.

Die längst alltäglich genutzte elektronisch getriebene Kommunikation und Informationsübermittlung treibt aber den Wunsch zur Automatisierung und damit Arbeitserleichterung von wiederkehrenden Aufgaben voran. Eine solche Automatisierung stellt die Sortierung von Nachrichten dar. In der Praxis bereits häufiger anzutreffen sind vor allem so genannte SPAM-Filter, die gewünschte Nachrichten von der unerwünschten Werbepost trennen.

Die Idee dieser Studienarbeit ist eine weitergehende Vereinfachung der Klassifikation von Inhalten in beliebig viele und nicht zwingend völlig verschiedene Klassen, die durch Benutzerrückmeldefähigkeit die Klassifikationsleistung automatisch und stetig verbessert. Die Lernfähigkeit des Projekts soll auf vorkategorisierten Beispielsmengen gründen. Für ein solches System sind vielfältige Einsatzwecke sowohl im Dienstleistungs- wie auch im privaten Bereich denkbar, wie die Einteilung von E-Mails nach unterschiedlichen Gesichtspunkten.