( Semi- ) Automatische Annotation von Textdokumenten
Page 1
( Semi- ) Automatische Annotation von Textdokumenten
(Semi-)Automatische Annotation von Textdokumenten
Work in Progress
Heiko Betz, Daniel Klan, Kai-Uwe Sattler
Department of Computer Science & Automation
TU Ilmenau, Germany
ffirst.lastg@tu-ilmenau.de
Abstract
Das Erfassen der Bedeutung von geschriebener
oder gesprochener Sprache ist bis heute eine der
gro¨ßten Herausforderung in der Informatik. Fu¨r
eine effiziente computergestu¨tzte Analyse und
Suche ist dies aber unumga¨nglich. Gegenwa¨rtig
ist es nicht mo¨glich Informationen in ausreichen-
der Qualita¨t vollsta¨ndig automatisch auf ihre Be-
deutung hin zu analysieren und entsprechend zu
annotieren. Ha¨ufig wird daher auf teilautomati-
sche Systeme zuru¨ckgegriffen, welche eine Nut-
zerinteraktion erfordern. In der folgenden Arbeit
wollen wir zwei neue Ansa¨tze zur automatischen
Annotation von Dokumenten pra¨sentieren.
1 Einleitung
Mit der stetig steigenden Menge an digitalen Dokumenten
wird die automatische Computergestu¨tzte Auswertung und
Verknu¨pfung von Informationen immer wichtiger. Das Fin-
den relevanter Informationen mit Internet-Suchmaschinen,
wie zum Beispiel Google, wu¨rde ohne eine entsprechende
Vorverarbeitung und Bewertung durch diese ha¨ufig zu nicht
relevanten Informationen fu¨hren. So leistungsfa¨hig aktuel-
le Suchmaschinen auch sind, im Allgemeinen weisen sie
allerdings alle das gleiche Problem auf. Sie ko¨nnen aus-
schließlich u¨ber dem Inhalt von Dokumenten suchen. De-
ren Bedeutung bleibt ihnen meist verschlossen. Sind die
Suchbegriffe nicht Teil der untersuchten Dokumente, so
werden diese nicht gefunden.
Semantische Suchmaschinen, wie zum Beispiel Wolf-
ram Alpha1, wollen dieses Problem lo¨sen, indem sie ver-
suchen sowohl die Bedeutung der durchsuchten Dokumen-
tenbasis als auch der Nutzeranfragen zu erfassen und ent-
sprechende Ergebnisse zu pra¨sentieren. Gro¨ßtes Problem
ist dabei die computergestu¨tzte Erfassung der Semantik
von Dokumenten. Wie komplex sich dies gestaltet, zeigt
sich sowohl am geringen Verbreitungsgrad entsprechender
Systeme als auch an der ha¨ufig dramatisch kleineren Da-
tenbasis als bei herko¨mmlichen Suchmaschinen.
Das Erfassen der Bedeutung nativer gesprochener oder
geschriebener Sprache za¨hlt bis heute zu einer der
gro¨ßten Herausforderungen in der Computerlinguistik. Ge-
genwa¨rtig ist kein System bekannt, welches Dokumen-
te in hinreichender Qualita¨t automatisch annotieren kann,
so dass sinnvolle komplexe Suchanfragen mo¨glich wer-
den. Die Autoren in [12] haben gezeigt, dass selbst eine
vollsta¨ndig manuelle Annotation von Dokumenten durch
1http://www.wolframalpha.com/
Mitglieder einer Community keine Garantie fu¨r eine ho-
he Qualita¨t an Schlagworten darstellt. So werden laut [12]
ha¨ufig weniger als 50 % der verwendeten Taggs als nu¨tzlich
erachtet.
Es hat sich gezeigt, dass eine vollsta¨ndig automatisier-
te Annotation durch den Computer nur in beschra¨nktem
Umfang zu den gewu¨nschten Ergebnissen fu¨hrt. Eine aus-
schließlich manuelle Verschlagwortung ist sowohl auf-
grund der enormen Datenmenge als auch dem ha¨ufig un-
terschiedlichen Versta¨ndnis fu¨r die Bedeutung von Infor-
mation nur bedingt sinnvoll. Im Weiteren wollen wir zwei
Ansa¨tze pra¨sentieren, welche den Anwender bei der Anno-
tation von Dokumenten unterstu¨tzen sollen. Der Nutzer be-
kommt bei diesen eine Menge mo¨glicher passender Taggs
pra¨sentiert, aus denen er die seiner Meinung nach zutref-
fendsten Schlagwo¨rter auswa¨hlt.
2 Verwandte Arbeiten
Fu¨r die Automatisierung des Verschlagwortungsprozesses
existieren bereits einige etablierte Verfahren. Prinzipiell
lassen sich diese in zwei unterschiedlichen Klassen einord-
nen: graphbasierte und inhaltsbasierte Verfahren.
Graphbasierete Verfahren [11] kommen ha¨ufig beim kol-
laborativen Tagging, welches zum Beispiel typisch fu¨r so-
ziale Netzwerke ist, zum Einsatz. Die Verfahren arbei-
ten auf einem vorab selbst definierten Graphen. Die fin-
den ha¨ufig dann Anwendung, wenn Schlu¨sselworte zu
Objekten zugewiesen werden, die keinen oder einen ge-
ringen Anteil an maschinell lesbaren Inhalt aufweisen
(zum Beispiel Bilder, Musik, Videos, etc). Knoten in den
Graphen entsprechen den zu klassifizierenden Objekten
(Schlu¨sselworte und Benutzer). Die Kanten beschreiben
Zusammenha¨nge zwischen den verschiedenen Objekten.
Hieru¨ber wird definiert, welcher Benutzer welches Doku-
ment mit welchen Stichworten versehen hat. Um Stichwor-
te aus den Graphen zu extrahieren, kommen ha¨ufig Min-
Cut-Algorithmen oder Modifikationen von diesen zum Ein-
satz.
In [10] wird die Anwendung eines graphbasierten Ver-
fahrens auf ca. 52 Millionen Bilder aus Flickr gezeigt.
Die Bilder werden maschinell analysiert und Empfehlun-
gen anhand von bereits geta¨tigten Zuweisungen ausge-
sprochen. Die Autoren in [5] pra¨sentieren ein graphbasier-
tes Verfahren, welches eine Erweiterung des PageRank-
Algorithmus [6] darstellt und im wesentlichen auf dem
in [4] pra¨sentierten Ranking-Verfahren fu¨r Folksonomies
basiert. Das pra¨sentierte Verfahren berechnet die Wahr-
scheinlichkeit dafu¨r, dass ein Tag fu¨r einen bestimmten Be-
nutzer zu einem bestimmten Objekt vorgeschlagen wird.
Im Gegensatz zu den graphbasierten Verfahren verwen-
Work in Progress
Heiko Betz, Daniel Klan, Kai-Uwe Sattler
Department of Computer Science & Automation
TU Ilmenau, Germany
ffirst.lastg@tu-ilmenau.de
Abstract
Das Erfassen der Bedeutung von geschriebener
oder gesprochener Sprache ist bis heute eine der
gro¨ßten Herausforderung in der Informatik. Fu¨r
eine effiziente computergestu¨tzte Analyse und
Suche ist dies aber unumga¨nglich. Gegenwa¨rtig
ist es nicht mo¨glich Informationen in ausreichen-
der Qualita¨t vollsta¨ndig automatisch auf ihre Be-
deutung hin zu analysieren und entsprechend zu
annotieren. Ha¨ufig wird daher auf teilautomati-
sche Systeme zuru¨ckgegriffen, welche eine Nut-
zerinteraktion erfordern. In der folgenden Arbeit
wollen wir zwei neue Ansa¨tze zur automatischen
Annotation von Dokumenten pra¨sentieren.
1 Einleitung
Mit der stetig steigenden Menge an digitalen Dokumenten
wird die automatische Computergestu¨tzte Auswertung und
Verknu¨pfung von Informationen immer wichtiger. Das Fin-
den relevanter Informationen mit Internet-Suchmaschinen,
wie zum Beispiel Google, wu¨rde ohne eine entsprechende
Vorverarbeitung und Bewertung durch diese ha¨ufig zu nicht
relevanten Informationen fu¨hren. So leistungsfa¨hig aktuel-
le Suchmaschinen auch sind, im Allgemeinen weisen sie
allerdings alle das gleiche Problem auf. Sie ko¨nnen aus-
schließlich u¨ber dem Inhalt von Dokumenten suchen. De-
ren Bedeutung bleibt ihnen meist verschlossen. Sind die
Suchbegriffe nicht Teil der untersuchten Dokumente, so
werden diese nicht gefunden.
Semantische Suchmaschinen, wie zum Beispiel Wolf-
ram Alpha1, wollen dieses Problem lo¨sen, indem sie ver-
suchen sowohl die Bedeutung der durchsuchten Dokumen-
tenbasis als auch der Nutzeranfragen zu erfassen und ent-
sprechende Ergebnisse zu pra¨sentieren. Gro¨ßtes Problem
ist dabei die computergestu¨tzte Erfassung der Semantik
von Dokumenten. Wie komplex sich dies gestaltet, zeigt
sich sowohl am geringen Verbreitungsgrad entsprechender
Systeme als auch an der ha¨ufig dramatisch kleineren Da-
tenbasis als bei herko¨mmlichen Suchmaschinen.
Das Erfassen der Bedeutung nativer gesprochener oder
geschriebener Sprache za¨hlt bis heute zu einer der
gro¨ßten Herausforderungen in der Computerlinguistik. Ge-
genwa¨rtig ist kein System bekannt, welches Dokumen-
te in hinreichender Qualita¨t automatisch annotieren kann,
so dass sinnvolle komplexe Suchanfragen mo¨glich wer-
den. Die Autoren in [12] haben gezeigt, dass selbst eine
vollsta¨ndig manuelle Annotation von Dokumenten durch
1http://www.wolframalpha.com/
Mitglieder einer Community keine Garantie fu¨r eine ho-
he Qualita¨t an Schlagworten darstellt. So werden laut [12]
ha¨ufig weniger als 50 % der verwendeten Taggs als nu¨tzlich
erachtet.
Es hat sich gezeigt, dass eine vollsta¨ndig automatisier-
te Annotation durch den Computer nur in beschra¨nktem
Umfang zu den gewu¨nschten Ergebnissen fu¨hrt. Eine aus-
schließlich manuelle Verschlagwortung ist sowohl auf-
grund der enormen Datenmenge als auch dem ha¨ufig un-
terschiedlichen Versta¨ndnis fu¨r die Bedeutung von Infor-
mation nur bedingt sinnvoll. Im Weiteren wollen wir zwei
Ansa¨tze pra¨sentieren, welche den Anwender bei der Anno-
tation von Dokumenten unterstu¨tzen sollen. Der Nutzer be-
kommt bei diesen eine Menge mo¨glicher passender Taggs
pra¨sentiert, aus denen er die seiner Meinung nach zutref-
fendsten Schlagwo¨rter auswa¨hlt.
2 Verwandte Arbeiten
Fu¨r die Automatisierung des Verschlagwortungsprozesses
existieren bereits einige etablierte Verfahren. Prinzipiell
lassen sich diese in zwei unterschiedlichen Klassen einord-
nen: graphbasierte und inhaltsbasierte Verfahren.
Graphbasierete Verfahren [11] kommen ha¨ufig beim kol-
laborativen Tagging, welches zum Beispiel typisch fu¨r so-
ziale Netzwerke ist, zum Einsatz. Die Verfahren arbei-
ten auf einem vorab selbst definierten Graphen. Die fin-
den ha¨ufig dann Anwendung, wenn Schlu¨sselworte zu
Objekten zugewiesen werden, die keinen oder einen ge-
ringen Anteil an maschinell lesbaren Inhalt aufweisen
(zum Beispiel Bilder, Musik, Videos, etc). Knoten in den
Graphen entsprechen den zu klassifizierenden Objekten
(Schlu¨sselworte und Benutzer). Die Kanten beschreiben
Zusammenha¨nge zwischen den verschiedenen Objekten.
Hieru¨ber wird definiert, welcher Benutzer welches Doku-
ment mit welchen Stichworten versehen hat. Um Stichwor-
te aus den Graphen zu extrahieren, kommen ha¨ufig Min-
Cut-Algorithmen oder Modifikationen von diesen zum Ein-
satz.
In [10] wird die Anwendung eines graphbasierten Ver-
fahrens auf ca. 52 Millionen Bilder aus Flickr gezeigt.
Die Bilder werden maschinell analysiert und Empfehlun-
gen anhand von bereits geta¨tigten Zuweisungen ausge-
sprochen. Die Autoren in [5] pra¨sentieren ein graphbasier-
tes Verfahren, welches eine Erweiterung des PageRank-
Algorithmus [6] darstellt und im wesentlichen auf dem
in [4] pra¨sentierten Ranking-Verfahren fu¨r Folksonomies
basiert. Das pra¨sentierte Verfahren berechnet die Wahr-
scheinlichkeit dafu¨r, dass ein Tag fu¨r einen bestimmten Be-
nutzer zu einem bestimmten Objekt vorgeschlagen wird.
Im Gegensatz zu den graphbasierten Verfahren verwen-
Page 2
Input: Textdokument
Output: Menge von Schlu¨sselworten
Erkennung der Sprache1
Absa¨tze erkennen2
Zerlegung von Sa¨tzen3
Splitten von Worten4
U¨berfu¨hrung in Kleinbuchstaben5
Worttrennungen entfernen6
Grundwortreduktion7
Filtern von Stoppworten8
Filtern von unwichtigen Textstellen9
Filtern von Substantiven10
Synonymerkennung11
Homonymerkennung12
Abku¨rzungen ersetzen13
Relativpronomen erkennen und ersetzten14
Kompositazerlegung15
Fachterme erkennen16
Algorithm 1: NLP-Vorverarbeitungsschritte
den inhaltsbasierte Verfahren [7] den Inhalt von Doku-
menten um Stichworte aus diesen zu extrahieren. Somit
ko¨nnen sie nur auf Objekte angewandt werden die selbst
ausreichend maschinell lesbaren Inhalt aufweisen. Hierun-
ter fallen Dokumente wie zum Beispiel Webseiten oder E-
Mails. In [7] werden u.a. Empfehlungssysteme vorgestellt,
die Objekte anhand des Benutzerprofils und des Inhaltes
vorschlagen. In [1] wird gezeigt, wie Taggs anhand von
a¨hnlichen und bereits mit Stichworten versehenen Websei-
ten vorgeschlagen werden ko¨nnen. [3] entha¨lt eine detail-
lierte U¨bersicht u¨ber die wichtigsten Textmining-Verfahren
um wichtige Worte aus Texten zu extrahieren.
Neben diesen Ansa¨tzen werden zusehends auch Verfah-
ren fu¨r das Semantic Web entwickelt. Diese zielen darauf
ab Webseiten fu¨r Maschinen versta¨ndlich zu gestalten, in-
dem der extrahierbare Textinhalt mit zusa¨tzlichen Elemen-
ten versehen wird. Es existieren bereits einige Ansa¨tze,
die diese Aufgabe in hinreichendem Maße erledigen [8].
Durch die Feingranularita¨t des Prozesses sind den Syste-
men jedoch Grenzen gesetzt. So existiert bisher noch kein
vollautomatisches Programm, dass diese Aufgabe in zu-
friedenstellendem Maße erledigt. Ha¨ufig wird aus diesem
Grund auf Systeme gesetzt, welche zuna¨chst manuell an-
gelernt werden mu¨ssen und anschließend das erlernte kon-
tinuierlich verbessern [13]. Durch den hohen manuellen
Aufwand sind die entwickelten Lo¨sungen jedoch zumeist
doma¨nenspezifisch und nicht auf allgemeine Probleme an-
wendbar.
3 Tag-Empfehlunssystem
Im folgenden sollen zwei Ansa¨tze zur automatischen An-
notation von Dokumenten beschrieben werden. Die beiden
Ansa¨tze unterscheiden sich dabei in der verwendeten Wis-
sensbasis. Der erste Ansatz beschra¨nkt sich im Wesentli-
chen auf den Inhalt des zu pru¨fenden Dokumentes und ver-
sucht relevante und beschreibende Begriffe aus diesen zu
identifizieren und vorzuschlagen. Der zweite Ansatz ver-
gleicht das zu annotierende Dokument mit bereits korrekt
getaggten Dokumenten und versucht auf Grundlage dieser
Empfehlungen fu¨r das neue Dokument zu geben.
3.1 Inhaltsbasierte Annotation
In diesem Abschnitt wird ein Ansatz vorgestellt, der auf
einer rein inhaltsbezogenen Extraktion basiert.
Input: Textdokument
Output: Menge von Taggs
NLP-Vorverarbeitungsschritte nach Algorithmus 11
Korpusbasierte Extraktion2
Bestimmung von Wortrelationen3
Part-of-speech Tagging4
Algorithm 2: Inhaltsbasierte Annotation
Die computergestu¨tzte Extraktion relevanter Informatio-
nen aus sprachlichen Dokumenten ist ein Teilgebiet der
Computerlinguistik (NLP - natural language processing).
Typischerweise durchla¨uft ein Text dabei eine Prozessket-
te, deren Ziel das Entfernen nicht relevanter Begriffe, die
Zuru¨ckfu¨hrung auf Grundformen, sowie die syntaktische
und semantische Analyse ist. Algorithmus 1 zeigt exem-
plarisch die wesentlichen NLP-Schritte.
Im folgenden sollen diese NLP-Vorverarbeitunsschritte
derart erweitert werden das signifikante Worte extrahiert
werden, welche anschließend als Taggs vorgeschlagen wer-
den ko¨nnen (siehe Algorithmus 2).
Ein erster zusa¨tzlicher NLP-Verarbeitungschritt ist die
Verwendung eines Korpus. Ein Korpus ist eine Ansamm-
lung von vielen natu¨rlich sprachlichen Texten aus verschie-
denen Quellen mit unterschiedlichen Themen und Textar-
ten (z.B. Berichte, Fachliteratur, Lyrik, etc.). Das Ziel eines
Korpus ist es, eine relative Auftrittsha¨ufigkeit von Worten
in einer Sprache abzuscha¨tzen. Basierend auf dieser kann
eine Differenzanalyse durchgefu¨hrt werden, d.h. nach der
Extraktion eines jeden Wortes aus einem Dokument kann
verglichen werden wie ha¨ufig dieses Wort im aktuellen Do-
kument im Vergleich zur Allgemeinsprache auftritt. Ein si-
gnifikanter Unterschied kann auf einen Fachterm oder ein
wichtiges Wort hindeuten. Weiterhin lassen sich mittels ei-
nes Korpus signifikante Nachbarschaftskookkurenzen be-
stimmen, d.h. es werden Worte identifiziert, die im Doku-
ment ha¨ufig in Kombination zusammen auftreten.
Ein weiterer wichtiger zusa¨tzlicher NLP-Schritt ist die
Verwendung eines Thesaurus. In diesem kontrollierten Vo-
kabular werden Relationen zwischen Worten definiert, die
ein bestimmtes Verha¨ltnis innehaben. Hierunter fa¨llt z.B.
die Synonymrelation, U¨ber- und Untergeordnete Begriffe
usw.
Weiterhin ist der Einsatz eines Part-of-speech-Tagger
(POS-Tagger) sinnvoll. Dieser ermittelt durch Wahrschein-
lichkeitsabscha¨tzung welches Wort welcher Wortform an-
geho¨rt2. Intern arbeiten solche Programme ha¨ufig mit
Hidden-Markov-Modellen, die zuvor durch Trainingsdaten
angelernt werden mu¨ssen.
Regula¨re Ausdru¨cke sollen hier nur der Vollsta¨ndigkeit
halber erwa¨hnt werden. Diese sind auch u¨ber die NLP-
Disziplin hinaus ein ha¨ufig anzutreffendes Vorverarbei-
tungswerkzeug. Mit regula¨ren Ausdru¨cken kann auf einem
Text, eine einfache Suche auf Eigennamen und normale
Nomina, sowie Kombinationen hiervon, angewendet wer-
den um wichtige Worte sowie Fachterme zu filtern.
Durch eine geschickte Kombination all dieser NLP-
Techniken lassen sich signifikante Worte aus einem Do-
kument ermitteln. Diese beschreiben bereits ein Dokument
recht gut [3]. Hierbei tritt jedoch ein Problem auf. Durch
diesen Ansatz existiert eine sehr eingeschra¨nkte Sicht auf
ein einzelnes Dokument. Dies bedeutet in ihrer Konse-
quenz, dass nur Worte aus dem aktuellen Dokument vor-
2Fu¨r die deutsche Sprache hat sich das Stuttgart-Tu¨bingen
Tagset (STTS) etabliert.
Output: Menge von Schlu¨sselworten
Erkennung der Sprache1
Absa¨tze erkennen2
Zerlegung von Sa¨tzen3
Splitten von Worten4
U¨berfu¨hrung in Kleinbuchstaben5
Worttrennungen entfernen6
Grundwortreduktion7
Filtern von Stoppworten8
Filtern von unwichtigen Textstellen9
Filtern von Substantiven10
Synonymerkennung11
Homonymerkennung12
Abku¨rzungen ersetzen13
Relativpronomen erkennen und ersetzten14
Kompositazerlegung15
Fachterme erkennen16
Algorithm 1: NLP-Vorverarbeitungsschritte
den inhaltsbasierte Verfahren [7] den Inhalt von Doku-
menten um Stichworte aus diesen zu extrahieren. Somit
ko¨nnen sie nur auf Objekte angewandt werden die selbst
ausreichend maschinell lesbaren Inhalt aufweisen. Hierun-
ter fallen Dokumente wie zum Beispiel Webseiten oder E-
Mails. In [7] werden u.a. Empfehlungssysteme vorgestellt,
die Objekte anhand des Benutzerprofils und des Inhaltes
vorschlagen. In [1] wird gezeigt, wie Taggs anhand von
a¨hnlichen und bereits mit Stichworten versehenen Websei-
ten vorgeschlagen werden ko¨nnen. [3] entha¨lt eine detail-
lierte U¨bersicht u¨ber die wichtigsten Textmining-Verfahren
um wichtige Worte aus Texten zu extrahieren.
Neben diesen Ansa¨tzen werden zusehends auch Verfah-
ren fu¨r das Semantic Web entwickelt. Diese zielen darauf
ab Webseiten fu¨r Maschinen versta¨ndlich zu gestalten, in-
dem der extrahierbare Textinhalt mit zusa¨tzlichen Elemen-
ten versehen wird. Es existieren bereits einige Ansa¨tze,
die diese Aufgabe in hinreichendem Maße erledigen [8].
Durch die Feingranularita¨t des Prozesses sind den Syste-
men jedoch Grenzen gesetzt. So existiert bisher noch kein
vollautomatisches Programm, dass diese Aufgabe in zu-
friedenstellendem Maße erledigt. Ha¨ufig wird aus diesem
Grund auf Systeme gesetzt, welche zuna¨chst manuell an-
gelernt werden mu¨ssen und anschließend das erlernte kon-
tinuierlich verbessern [13]. Durch den hohen manuellen
Aufwand sind die entwickelten Lo¨sungen jedoch zumeist
doma¨nenspezifisch und nicht auf allgemeine Probleme an-
wendbar.
3 Tag-Empfehlunssystem
Im folgenden sollen zwei Ansa¨tze zur automatischen An-
notation von Dokumenten beschrieben werden. Die beiden
Ansa¨tze unterscheiden sich dabei in der verwendeten Wis-
sensbasis. Der erste Ansatz beschra¨nkt sich im Wesentli-
chen auf den Inhalt des zu pru¨fenden Dokumentes und ver-
sucht relevante und beschreibende Begriffe aus diesen zu
identifizieren und vorzuschlagen. Der zweite Ansatz ver-
gleicht das zu annotierende Dokument mit bereits korrekt
getaggten Dokumenten und versucht auf Grundlage dieser
Empfehlungen fu¨r das neue Dokument zu geben.
3.1 Inhaltsbasierte Annotation
In diesem Abschnitt wird ein Ansatz vorgestellt, der auf
einer rein inhaltsbezogenen Extraktion basiert.
Input: Textdokument
Output: Menge von Taggs
NLP-Vorverarbeitungsschritte nach Algorithmus 11
Korpusbasierte Extraktion2
Bestimmung von Wortrelationen3
Part-of-speech Tagging4
Algorithm 2: Inhaltsbasierte Annotation
Die computergestu¨tzte Extraktion relevanter Informatio-
nen aus sprachlichen Dokumenten ist ein Teilgebiet der
Computerlinguistik (NLP - natural language processing).
Typischerweise durchla¨uft ein Text dabei eine Prozessket-
te, deren Ziel das Entfernen nicht relevanter Begriffe, die
Zuru¨ckfu¨hrung auf Grundformen, sowie die syntaktische
und semantische Analyse ist. Algorithmus 1 zeigt exem-
plarisch die wesentlichen NLP-Schritte.
Im folgenden sollen diese NLP-Vorverarbeitunsschritte
derart erweitert werden das signifikante Worte extrahiert
werden, welche anschließend als Taggs vorgeschlagen wer-
den ko¨nnen (siehe Algorithmus 2).
Ein erster zusa¨tzlicher NLP-Verarbeitungschritt ist die
Verwendung eines Korpus. Ein Korpus ist eine Ansamm-
lung von vielen natu¨rlich sprachlichen Texten aus verschie-
denen Quellen mit unterschiedlichen Themen und Textar-
ten (z.B. Berichte, Fachliteratur, Lyrik, etc.). Das Ziel eines
Korpus ist es, eine relative Auftrittsha¨ufigkeit von Worten
in einer Sprache abzuscha¨tzen. Basierend auf dieser kann
eine Differenzanalyse durchgefu¨hrt werden, d.h. nach der
Extraktion eines jeden Wortes aus einem Dokument kann
verglichen werden wie ha¨ufig dieses Wort im aktuellen Do-
kument im Vergleich zur Allgemeinsprache auftritt. Ein si-
gnifikanter Unterschied kann auf einen Fachterm oder ein
wichtiges Wort hindeuten. Weiterhin lassen sich mittels ei-
nes Korpus signifikante Nachbarschaftskookkurenzen be-
stimmen, d.h. es werden Worte identifiziert, die im Doku-
ment ha¨ufig in Kombination zusammen auftreten.
Ein weiterer wichtiger zusa¨tzlicher NLP-Schritt ist die
Verwendung eines Thesaurus. In diesem kontrollierten Vo-
kabular werden Relationen zwischen Worten definiert, die
ein bestimmtes Verha¨ltnis innehaben. Hierunter fa¨llt z.B.
die Synonymrelation, U¨ber- und Untergeordnete Begriffe
usw.
Weiterhin ist der Einsatz eines Part-of-speech-Tagger
(POS-Tagger) sinnvoll. Dieser ermittelt durch Wahrschein-
lichkeitsabscha¨tzung welches Wort welcher Wortform an-
geho¨rt2. Intern arbeiten solche Programme ha¨ufig mit
Hidden-Markov-Modellen, die zuvor durch Trainingsdaten
angelernt werden mu¨ssen.
Regula¨re Ausdru¨cke sollen hier nur der Vollsta¨ndigkeit
halber erwa¨hnt werden. Diese sind auch u¨ber die NLP-
Disziplin hinaus ein ha¨ufig anzutreffendes Vorverarbei-
tungswerkzeug. Mit regula¨ren Ausdru¨cken kann auf einem
Text, eine einfache Suche auf Eigennamen und normale
Nomina, sowie Kombinationen hiervon, angewendet wer-
den um wichtige Worte sowie Fachterme zu filtern.
Durch eine geschickte Kombination all dieser NLP-
Techniken lassen sich signifikante Worte aus einem Do-
kument ermitteln. Diese beschreiben bereits ein Dokument
recht gut [3]. Hierbei tritt jedoch ein Problem auf. Durch
diesen Ansatz existiert eine sehr eingeschra¨nkte Sicht auf
ein einzelnes Dokument. Dies bedeutet in ihrer Konse-
quenz, dass nur Worte aus dem aktuellen Dokument vor-
2Fu¨r die deutsche Sprache hat sich das Stuttgart-Tu¨bingen
Tagset (STTS) etabliert.
Sign up today - FREE
Mendeley saves you time finding and organizing research. Learn more
- All your research in one place
- Add and import papers easily
- Access it anywhere, anytime
Start using Mendeley in seconds!
Readership Statistics
2 Readers on Mendeley
by Discipline
50% Medicine
by Academic Status
50% Student (Master)
50% Ph.D. Student
by Country
50% Germany
50% Australia


