Business & Competitive Intelligence
|
|
Extraktion, Qualitätssicherung und Klassifikation unstrukturierter Daten |
Carsten Felden |
Zusammenfassung
Die Informationsflut, die Entscheidungsträgern begegnet,
lässt sich nur schwer bewältigen. Daher muss die Menge der
Informationen vorher in interessante und uninteressante
Informationen unterteilt werden, so dass
Entscheidungsträgern anschließend lediglich die erstgenannten zugeführt werden. Dabei sind Maßnahmen zu
ergreifen, um die mangelnde Datenqualität, insbesondere
von Internetdokumenten, zu begrenzen. Zur Aufbereitung der
Dokumente sind unterschiedliche Vorverarbeitungsschritte
möglich. Beispielhaft werden Klassifikationsergebnisse
verschiedener Algorithmen und Vorverarbeitungsschritte in
diesem Beitrag vorgestellt. Dabei wird nicht nur die reine
Klassifikationsgüte, sondern auch der benötigte
Zeiteinsatz, der zur Erreichung dieser Ergebnisse
notwendig ist, als wichtige Ergänzung betrachtet. Die
Frage nach dem optimalen Einsatz der
Vorverarbeitungsschritte und der Algorithmen kann nicht
allgemein gültig beantwortet werden. Verschiedene
Kombinationen sind im Zeitablauf wiederholt entsprechend
Einsatz- und Rahmenbedingungen zu testen.
Inhaltsübersicht
- Problematik unstrukturierter Daten in der Praxis
- Informationseinordnung durch Textklassifikation
- Datenqualität
- Grundlagen der Klassifikation unstrukturierter Daten
- Vektorraummodell
- Gütekriterien des Information Retrieval
- Preprocessing zur Reduktion zu analysierender Terme
- Stemming
- Thesauren
- Termeleminierung
- Methoden und Beispiel zur Textklassifikation
- Ausblick
- Literatur
HMD, Heft 247, Februar 2006
|