Web 3.0 & Semantic Web
|
Wie man mit der Wikipedia semantische Verfahren verbessern kann |
Stephan Gillmeier, Urs Hengartner, Sandro Pedrazzini |
Zusammenfassung
Das automatische Zuweisen von Themengebieten zu beliebigen
Dokumenten ist eine der anspruchsvollsten Aufgaben in der
Computerlinguistik. Um dies technisch überhaupt
bewerkstelligen zu können, setzt es ein gewisses
"Verständnis" eines Textes voraus. Üblicherweise
werden bei solchen Verfahren große - von Hand erstellte -
thematisch vorsortierte Datenbanken benutzt. In dieser
Arbeit wird zusammen mit statistischen Datenanalysen die
"Datenbank" Wikipedia verwendet, um mit ihren
semantischen Strukturen automatisch passende Themen von
Dokumenten zu identifizieren und anschließend zuzuordnen.
Darüber hinaus wird mit einem weiteren Verfahren gezeigt,
wie das Auffinden ähnlicher Dokumente verbessert werden
kann.
Inhaltsübersicht
- Automatische Zuordnung von Themen
- Nutzen der Wikipedia-Strukturen
- WMTrans-Produkte
- WMTrans-Technologie
- Produktbereiche
- Der WMTrans-Lemmatizer
- TF-IDF
- Semantische Kategorisierung und themenbasierte Verschlagwortung von Dokumenten mit der Wikipedia
- Das Auffinden ähnlicher Dokumente
- Automatisches Kategorisieren von Dokumenten
- Schlussbetrachtung und Ausblick
- Literatur
HMD, Heft 271, Februar 2010
|