PhD Theses at KOM

Lebenszyklusinformationen von Wissensdokumenten

Lasse Lehmann

Monday April 19, 2010

German abstract:

Mit der wachsenden Zahl digital verfügbarer Dokumente wachsen auch die Probleme der Nutzer, die Dokumente persönlich oder in der Gruppe zu organisieren. Insbesondere für Wissensarbeiter ist jedoch ein schnelles Auffinden von für ihre Arbeit relevanten Dokumenten wichtig, um effektiv arbeiten zu können. Nutzer haben aber in vielen Fällen Probleme, Dokumente, die sie oder Gruppenmitglieder gespeichert haben, wiederzufinden. Dies führt sogar so weit, dass Nutzer Dokumente, die sie aus dem Internet heruntergeladen und im Dateisystem gespeichert haben, lieber erneut im Internet suchen, als auf dem lokalen Rechner. Oft wissen sie auch nicht, dass Dokumente, in denen Gruppenmitglieder ihr Wissen dokumentiert haben, überhaupt existieren.

Ein Grund für die schlechte Auffindbarkeit von lokal verwalteten Dokumenten ist, dass nur wenige zusätzliche Informationen über solche Wissensdokumente verfügbar sind. Die Metadaten der Dokumente werden kaum gepflegt und enthalten in den meisten Fällen nicht mehr als die vom Betriebssystem oder einer Applikation zur Bearbeitung des jeweiligen Dokumenttyps automatisiert erzeugten Informationen. Diese sind zumeist wenig aussagekräftig, so dass sie für eine Verbesserung der oben genannten Situation oft nicht geeignet sind. Zudem werden Nutzer durch für die Suche und Organisation der Dokumente verwendete Werkzeuge, wie zum Beispiel den Windows Dateisystem-Explorer, nicht ausreichend unterstützt.

Diese Arbeit basiert auf der Beobachtung, dass eine Vielzahl von Informationen über Dokumente durch Aktionen entstehen, die auf einem Dokument durchgeführt werden. So wird ein Dokument beispielsweise geöffnet, gelesen, bearbeitet oder genutzt. Während dieser Prozesse entstehen Informationen, die für die Verwaltung oder zur Unterstützung des Auffindens der Dokumente nutzbar sind. Meist ist es so, dass die Informationen verloren gehen, wenn sie nicht während der entsprechenden Prozesse erfasst und gespeichert werden. Eine manuelle Erfassung der Informationen findet aufgrund des hohen Aufwands nicht statt. Deshalb verfolgt die vorliegende Dissertation den Ansatz, automatisiert Metadaten aus Prozessen zu gewinnen, die während seines Lebenszyklus auf einem Wissensdokument ablaufen, und die so gewonnenen Informationen entsprechend zu verwalten und nutzbar zu machen.

Hierzu wird zunächst analysiert, welche Informationen während des Lebenszyklus eines Wissensdokuments entstehen. Es wird auf Basis bestehender Lebenszyklusmodelle ein Lebenszyklusmodell für Wissensdokumente entwickelt. Lebenszyklusinformationen werden definiert und in Verwendungs- und Beziehungsinformationen unterteilt. Anhand des Lebenszyklusmodells werden Informationen, die in den verschiedenen Phasen entstehen, identifiziert. Das Hauptaugenmerk liegt in der vorliegenden Dissertation auf Beziehungsinformationen, die bei der Wiederverwendung von Wissensdokumenten entstehen.

Bevor Lebenszyklusinformationen genutzt werden können, müssen sie erfasst, entsprechend verwaltet und systemübergreifend zugänglich gemacht werden. Schließlich ist sicherzustellen, dass die erfassten Informationen ihre Gültigkeit behalten. Alle diese Aspekte werden in der vorliegenden Arbeit berücksichtigt. Es wird ein Framework für die automatisierte Erfassung, die Verwaltung und Nutzung von Lebenszyklusinformationen konzipiert, umgesetzt und evaluiert. Dieses Framework beinhaltet ein auf Plug-ins basierendes Konzept zur Erfassung der Informationen, welches auf fast beliebige Applikationen übertragbar ist. Zwei verschiedene Konzepte für die Erfassung von Informationen werden identifiziert und in Form von Erfassungskomponenten für drei verschiedene Applikationen umgesetzt. Die Verwaltung und Bereitstellung der erfassten Informationen erfolgt dabei serverbasiert. Für die Verwaltung der Informationen wird in der Arbeit ein Schema zur Verwaltung von Lebenszyklusinformationen vorgestellt, das insbesondere die Erfassung und Verwaltung von Beziehungsinformationen abdeckt, wofür bisher noch keine adäquate Lösung existiert. Darüber hinaus werden Konzepte für verschiedene Nutzungsszenarien von Lebenszyklusinformationen entwickelt und prototypisch für zwei dieser Szenarien umgesetzt.

Gerade im Fall von Beziehungsinformationen ist es notwendig, die Gültigkeit der erfassten Informationen zu gewährleisten. Wenn durch eine Aktion eine Beziehung zwischen zwei Dokumenten entstehen kann, so kann es auch eine Aktion geben, durch welche diese Beziehung ihre Gültigkeit verliert. Um dies zu adressieren, werden in dieser Arbeit zwei Validierungsalgorithmen für Beziehungsinformationen vorgestellt und auf unterschiedlichen Korpora evaluiert. Dabei wird gezeigt, dass die entworfenen Algorithmen auf den getesteten Korpora bessere Ergebnisse liefern als State-of-the-Art-Ansätze. Es wird zudem gezeigt, dass die entworfenen Algorithmen in verschiedenen weiteren Anwendungsszenarien nutzbar sind.

Die im Rahmen der Arbeit durchgeführte nutzerbasierte Evaluation des umgesetzten Frameworks zeigt, dass eine Erfassung valider Lebenszyklusinformationen mit hoher Verlässlichkeit durchführbar ist. Die vorliegende Arbeit schafft also durch die automatische Erfassung von Lebenszyklusinformationen von Wissensdokumenten die Voraussetzung und Grundlage für eine Nutzung dieser zusätzlichen Informationen in vielen Szenarien.

BibTeX entry

Link to online publication

PhD Theses