Web 3.0 & Semantic Web
|
Text-Mining-Methoden im Semantic Web |
Gerold Schneider, Heinrich Zimmermann |
Zusammenfassung
Aufbau, Pflege und Nutzung großer Wissensdatenbanken
erfordert den kombinierten Einsatz menschlicher und
maschineller Informationsverarbeitung. Da große Teile des
menschlichen Wissens in Textform vorliegen, bieten sich
Methoden des Text Mining zur Extraktion von Wissensinhalten
an. Dieser Artikel behandelt Grundlagen des Text Mining im
Kontext des Semantic Web. Methoden des Text Mining werden
besprochen, die für die halbautomatische Annotierung von
Texten und Textteilen eingesetzt werden, insbesondere
Eigennamenerkennung (Named-Entity Recognition), automatische
Schlüsselworterkennung (Keyword Recognition), automatische
Dokumentenklassifikation, teilautomatisches Erstellen von
Ontologien und halbautomatische Faktenerkennung (Fact
Recognition, Event Recognition). Es werden auch kritische
Hintergrundfragen aufgegriffen. Das Problem der zu hohen
Fehlerrate und der zu geringen Performanz automatischer
Verfahren wird diskutiert. Zwei Beispiele aus der Praxis
werden vorgestellt: Erstens das Forschungsprojekt OntoGene
der Universität Zürich, in dem Protein-Protein-Interaktionen
als Relationstripel aus der Fachliteratur extrahiert werden,
und zweitens ein ontologiebasierter Tag-Recommender, der die
manuelle Vergabe von Schlüsselwörtern an Wissensressourcen
unterstützt.
Inhaltsübersicht
- Annotierungsaufwand für das Semantic Web
- Methoden des Text Mining für das Semantic Web
- Eigennamenerkennung (Named-Entity Recognition and Grounding)
- Automatische Schlüsselworterkennung (Keyword Recognition)
- Automatische Dokumentenklassifikation
- Automatische Faktenerkennung (Fact Recognition, Event Recognition)
- Teilautomatisches Erstellen von Ontologien
- Hintergrundfragen
- Beispiele aus der Praxis
- Protein-Protein-Interaktionen: OntoGene
- Ontologiebasierter Tag-Recommender
- Schlussfolgerungen und Ausblick
- Literatur
HMD, Heft 271, Februar 2010
|