Sign up & Download
Sign in

Semiautomatische Annotation von Textdokumenten mit semantischen Metadaten

by Torsten Priebe, Jan Kolter, Christine Kiss
Text (2005)

Abstract

Metadaten sind eine verbreitete Lösung, den Herausforderun- gen des Wissens- und Dokumentenmanagements zu begegnen. Mit Tim Berners- Lees Vision des Semantic Web sind Metadaten wieder in das Zentrum der Be- trachtung gerückt. Dies drückt sich in (z.B. RDF, OWL, Dublin Core) und einer Vielzahl von neueren Forschungsarbeiten aus. Das Hauptproblem, die Erstellung der Metadaten, ist jedoch nach wie vor ungelöst. Bislang müssen Dokumente manuell annotiert werden, was oft zu mangelnder Be- nutzerakzeptanz führt. Daher untersucht dieser Beitrag, inwiefern Techniken des Text Mining und der Information Extraction den Prozess der Anreicherung von Textdokumenten mit semantischen Metadaten unterstützen können. Weiterhin wird skizziert, wie als nutzbar identifizierte Verfahren im Rahmen eines semiautomati- schen Ansatzes in ein Wissensportalsystem integriert werden können.

Cite this document (BETA)

Available from www.springerlink.com
Page 1
hidden

Semiautomatische Annotation von Textdokumenten mit semantischen Metadaten

Semiautomatische Annotation von
Textdokumenten mit semantischen Metadaten
Torsten Priebe, Jan Kolter
Universität Regensburg
Christine Kiss
Technische Universität München
Zusammenfassung: Metadaten sind eine verbreitete Lösung, den Herausforderun-
gen des Wissens- und Dokumentenmanagements zu begegnen. Mit Tim Berners-
Lees Vision des Semantic Web sind Metadaten wieder in das Zentrum der Be-
trachtung gerückt. Dies drückt sich in Standardisierungsbestrebungen (z.B. RDF,
OWL, Dublin Core) und einer Vielzahl von neueren Forschungsarbeiten aus. Das
Hauptproblem, die Erstellung der Metadaten, ist jedoch nach wie vor ungelöst.
Bislang müssen Dokumente manuell annotiert werden, was oft zu mangelnder Be-
nutzerakzeptanz führt. Daher untersucht dieser Beitrag, inwiefern Techniken des
Text Mining und der Information Extraction den Prozess der Anreicherung von
Textdokumenten mit semantischen Metadaten unterstützen können. Weiterhin wird
skizziert, wie als nutzbar identifizierte Verfahren im Rahmen eines semiautomati-
schen Ansatzes in ein Wissensportalsystem integriert werden können.
Schlüsselworte: Metadaten, Taxonomie, Ontologie, Text Mining, Information
Extraction
1 Einleitung
In der heutigen Informationsgesellschaft ist ein effizienter Zugang zu relevanten
Informationen zum Schlüsselproblem in allen Lebensbereichen geworden. Dies
gilt insbesondere im betrieblichen Umfeld, wo durch Wissensvorsprung massive
Wettbewerbsvorteile erzielt werden können. Dabei existiert eine wahre Flut an
Daten und Informationen. Jedoch ist eben durch diese Informationsflut das Auf-
finden von in einer bestimmten Entscheidungssituation tatsächlich relevanten In-
formationen zum Kunststück geworden. Dies liegt insbesondere daran, dass der
Datenbestand eines Unternehmens nur zu einem geringen Teil aus strukturierten
(und damit leicht greifbaren) Datenbankdaten besteht. Die meisten Informationen
liegen in unstrukturierten Textdokumenten vor (z.B. als Emails, in Formaten wie
Microsoft Word oder PDF).
Page 2
hidden
1310 T. Priebe, C. Kiss, J. Kolter
Abhilfe kann hier die Verwendung von Metadaten schaffen. Unter Metadaten ver-
steht man von Mensch und Maschine lesbare Zusatzinformationen, um die man
die Dokumente anreichert (man spricht auch von Annotation). Diese können da
einen wertvollen Beitrag zur Informationsfindung leisten, wo klassische volltext-
basierte Suchverfahren aufgrund der fehlenden Semantik an ihre Grenzen stoßen.
Metadaten sind bereits seit vielen Jahren im Dokumenten- und Wissensmanage-
ment im Einsatz. Jedoch fehlte es bislang an standardisierten Techniken und Ver-
fahren, die Lösungen waren meist proprietär und wenig interoperabel. Als Haupt-
problem gilt jedoch die mangelnde Benutzerakzeptanz. Wenn ein Benutzer ein
Textdokument in ein Wissens- oder Dokumentenmanagementsystem einbringt,
muss er die relevanten Metadaten zusätzlich manuell angeben. Die Bereitschaft zu
dieser Mehrarbeit ist jedoch nur zu erreichen, wenn ein Nutzen aufgezeigt werden
kann. Eine Verbesserung in der Informationsfindung wird sich jedoch erst einstel-
len, wenn eine gewisse kritische Masse an mit Metadaten angereicherten Doku-
menten vorhanden ist. Dies stellt gewissermaßen einen Teufelskreis dar.
Erst mit Aufkommen der Idee des Semantic Web [BeHL01] sind Metadaten wie-
der in das Zentrum der Betrachtung gerückt. Dies drückt sich zum einen in Stan-
dardisierungsbestrebungen (z.B. RDF [W3C04a], Dublin Core [DCMI03]) und
zum anderen in einer Vielzahl von neueren Forschungsarbeiten aus. Mittlerweile
existieren interoperable Werkzeuge zur Speicherung und Anfrage (z.B. Sesame
1
oder Jena
2
), das Hauptproblem, nämlich die Erstellung der Metadaten, ist jedoch
nach wie vor ungelöst.
Ziel dieses Beitrages ist es daher, geeignete Techniken zu finden, die den Prozess
der Anreicherung von Textdokumenten mit semantischen Metadaten unterstützen
können. Da Metadaten nur bei ausreichend hoher Qualität einen wirklichen Nut-
zen bringen und, wie der Beitrag zeigen wird, vollautomatische Verfahren diese
Qualität nicht gewährleisten können, streben wir eine semiautomatische Vorge-
hensweise an, d.h. der Benutzer bekommt automatisch generierte Metadaten vor-
geschlagen, muss diese aber noch bestätigen, bzw. kann sie ggf. korrigieren.
Der Rest dieses Beitrages gliedert sich wie folgt: Abschnitt 2 motiviert die Ver-
wendung von Metadaten im Wissensmanagement und geht kurz auf Standards
sowie die Rolle von Taxonomien und Ontologien ein. Abschnitt 3 gibt einen Ü-
berblick über Techniken des Text Mining und der Information Extraction. Die be-
schriebenen Techniken werden dann in Abschnitt 4 dazu herangezogen, Verfahren
zur automatischen Generierung diverser Metadatenelemente vorzuschlagen. Dar-
auf aufbauend beschreibt Abschnitt 5 die geplante Umsetzung im Rahmen des
Wissensportalsystems INWISS. Nachdem in Abschnitt 6 eine Abgrenzung zum
Stand der Technik und zu verwandten Forschungsarbeiten erfolgt ist, schließt Ab-
schnitt 7 den Beitrag mit einer Zusammenfassung und einem Ausblick.

1
http://www.openrdf.org
2
http://jena.sourceforge.net

Sign up today - FREE

Mendeley saves you time finding and organizing research. Learn more

  • All your research in one place
  • Add and import papers easily
  • Access it anywhere, anytime

Start using Mendeley in seconds!

Already have an account? Sign in

Readership Statistics

5 Readers on Mendeley
by Discipline
 
 
by Academic Status
 
40% Student (Bachelor)
 
20% Post Doc
 
20% Ph.D. Student
by Country
 
80% Germany
 
20% Ireland