HMD Praxis der Wirtschaftsinformatik

ISSN 1436-3011

09.02.2010


Home
Suche
HMD aktuell
Aktuelle Ausgabe
40 Jahre HMD
Vorschau
Buchbesprechungen
HMD-Glossar
Veranstaltungskalender
HMD beziehen
HMD Probeabo
HMD Abo
HMD Einzelheft
Bezugsbedingungen
HMD archiv
HMD Info
Mehr über HMD
Herausgebergremium
Gastherausgeber
Mediadaten
Redaktion /' Verlag
Impressum
Autoren/ Gutachter
Autorenrichtlinien
Autorenfragebogen
Gutachter für die HMD
Beurteilungsbogen

Business & Competitive Intelligence

[Zurück zum Inhaltsverzeichnis -
- Feedback an den Herausgeber]

Extraktion, Qualitätssicherung und Klassifikation unstrukturierter Daten

Carsten Felden

Zusammenfassung

Die Informationsflut, die Entscheidungsträgern begegnet, lässt sich nur schwer bewältigen. Daher muss die Menge der Informationen vorher in interessante und uninteressante Informationen unterteilt werden, so dass Entscheidungsträgern anschließend lediglich die erstgenannten zugeführt werden. Dabei sind Maßnahmen zu ergreifen, um die mangelnde Datenqualität, insbesondere von Internetdokumenten, zu begrenzen. Zur Aufbereitung der Dokumente sind unterschiedliche Vorverarbeitungsschritte möglich. Beispielhaft werden Klassifikationsergebnisse verschiedener Algorithmen und Vorverarbeitungsschritte in diesem Beitrag vorgestellt. Dabei wird nicht nur die reine Klassifikationsgüte, sondern auch der benötigte Zeiteinsatz, der zur Erreichung dieser Ergebnisse notwendig ist, als wichtige Ergänzung betrachtet. Die Frage nach dem optimalen Einsatz der Vorverarbeitungsschritte und der Algorithmen kann nicht allgemein gültig beantwortet werden. Verschiedene Kombinationen sind im Zeitablauf wiederholt entsprechend Einsatz- und Rahmenbedingungen zu testen.

Inhaltsübersicht

  1. Problematik unstrukturierter Daten in der Praxis
    1. Informationseinordnung durch Textklassifikation
    2. Datenqualität
  2. Grundlagen der Klassifikation unstrukturierter Daten
    1. Vektorraummodell
    2. Gütekriterien des Information Retrieval
    3. Preprocessing zur Reduktion zu analysierender Terme
      1. Stemming
      2. Thesauren
      3. Termeleminierung
  3. Methoden und Beispiel zur Textklassifikation
  4. Ausblick
  5. Literatur

HMD, Heft 247, Februar 2006

hosted by dpunkt.verlag