Wissensmanagement F&E

DokumentFinder

Im Zuge der Wissensmanagemententwicklung in einer obersten Landesbehörde entstand ein Werkzeug "DokumentFinder" zum alternativen Finden von gemeinsam nutzbaren Dokumenten als Ergänzung zur klassischen Suchmaschine. Insbesondere bei Datenbeständen, in denen oft auch Dokumente gelöscht werden, hat der hier eingeschlagene Weg Vorteile. Das Werkzeug bietet sich nun auch an, statistische und linguistische Untersuchungen an dem vorhandenen Dokumentenbestand vorzunehmen.

Voraussetzung für die Nutzung ist die Erreichbarkeit eines Dokumentenbestandes in Form von Word und PDF Dokumenten in einem Dateisystem. Das kann die lokale Festplatte eines Servers oder Desktop-Rechners ebenso sein wie gemeinsam genutzte LAN-Laufwerke.

Im Zuge der Entwicklung von DokumentFinder ergibt sich nun die Möglichkeit, für Dokumentenbestände

  1. Stichworthäufigkeiten zu untersuchen,
  2. Dokumentencluster nach Stichwortgruppen zu bilden (Freundschaftsbeziehungen zwischen Dokumenten).
Ein Nebeneffekt ist, dass auch das Erstellen von organisatorischen Regeln z.B. bezüglich des Wordings in Unternehmen in der Post-Hoc-Analyse durch DokumentFinder erleichtert wird.

Nach einer Entwicklungszeit von zwei Jahren ab 2004 befindet sich DokumentFinder nun seit 2006 in Produktionseinsatz

Neben der Weiterentwicklung als Findewerkzeug sollen nun Mithilfe des DokumentFinders auch größere Datenbestände in Ihren linguistischen Eigenschaften untersucht werden

Funktionsweise

DokumentenFinder durchforstet einen vorgegebenen Netzwerk-Pfad und extrahiert aus den gefundenen Dokumenten alle Substantive. Dateien, Speicherort, Stichworte und Verknüpfung zwischen Dateien und Stichworten werden in einer Datenbak abgelegt. Die Nutzeroberfläche ist webbasiert und ermölglicht es, zwischen den Stichworten zu navigieren und damit Dokumente zu finden.

Erste Ergebnisse

Duplikate

In Dokumentenbeständen mit mehreren Tausend Dateien ist ein Problem, Duplikate ausfindig zu machen. In einem ersten Schritt wurde untersucht, wie groß die Redundanz wirklich ist. Beispielsweise wurden in einem Subdatenbestand von insgesamt 7625 Dokumenten 5300 Unikate gefunden.

Stichwortmengen

In einem Bestand von knapp 22.000 Dokumenten werden knapp 410.000 Substantive identifiziert. Eine Reduktion auf einen Subdatenbestand von 5300 Dateien, also auf ein Viertel, reduzierd die Substantivmenge auf etwas mehr als die Hälfte mit 225.000 Stichworten

Planungen für die weiteren Untersuchungen

Folgende nächste Schritte sind geplant:

  1. Erschließung neuer umfanrreicher Dokumentenbestände für die Analysen.
  2. Entwicklung von "Freundschaftsfaktoren" zwischen Dokumenten. Hierbei sollen Methoden analog zu sozialen Netzwerken genutzt werden.
  3. Langzeituntersuchung eines Datenbestandes hinsichtlich Umfang und Variabilitä.t
  4. Evaluierung des Nutzungsverhaltens.





11.11.2008


Dr. Claus Brell
brell[at]web.de



Im November 2008 wird das Content-Management-System umgestellt. Daher können zeitweise Inhalte nicht verfügbar oder Links fehlerhaft sein. Über eine Information bezüglich entdeckter Fehler via Mail wäre ich dankbar.
L-Forschung.de