Modellierung und Identifikation von relevanten textuellen Features in Web Dokumenten

– ,

Thema
Das Start-Up foodQuest (http://www.foodque.st/) hat es sich zum Ziel gesetzt, intelligente Restaurant-Empfehlungen zu generieren. Hierzu werden existierende Restaurantbeschreibungen aus dem Web aggregiert und aufbereitet.
Die Empfehlung soll auf Grund gewisser Kriterien der Restaurants (Features) stattfinden. Beispiele für solche Features könnten die Existenz von WLAN, die Kinderfreundlichkeit, die Größe oder die Nationalität des Essens sein. Informationen dieser Art sind in der Regel in Restaurant-Beschreibungen und  Bewertungen auffindbar, allerdings tauchen Sie mit unterschiedlicher Syntax auf, was ihre Identifikation
erschwert.


Aufgabenbeschreibung
Im Rahmen der Arbeit soll eine Festlegung des Feature-Raumes im Anwendungsszenario vorgenommen werden und Verfahren entwickelt werden, die zur Identifikation der einzelnen Features im Text dienen:


1. In enger Zusammenarbeit mit den Gründern von foodQuest soll eine Modellierung relevanter Kriterien vorgenommen werden, d.h. es sollen die Eigenschaften eines Restaurants identifiziert werden, die zu dessen Charakterisierung genutzt werden können


2. Weiterhin sollen Möglichkeiten zur Erkennung dieser Kriterien in Texten entwickelt werden. Hierbei können beispielsweise Pattern-basierte Verfahren oder Verfahren des Machine Learnings zum Einsatz kommen. Der Fokus der Arbeit liegt auf diesem zweiten Schritt.


Der Umfang der Aufgaben ist abhängig von Typ und Dauer der Arbeit.


Voraussetzungen
• Gute Programmierkenntnisse in mind. einer Hochsprache wie Java oder Python
• Bereitschaft zur intensive Zusammenarbeit mit foodQuest (wenn möglich mit Präsenz, Arbeitsplatz steht zur Verfügung)
• Idealerweise Vorkenntnisse im Bereich NLP (nicht zwingend notwendig)

Keywords: NLP, Machine Learning, Klassikation, Text

Research Area(s): Knowledge & Educational Technologies

Tutor: ,

Student: Tamara Knierim

Completed Theses