Aufgabe 3 - Data-Mining

Aufgabenstellung

Veranschaulichen Sie den Data-Mining-Prozesses anhand eines Beispiels von Internettexten.

Lösung

Data Mining bezeichnet den automatisierten Prozess, in sehr großen Datenbeständen mithilfe von Algorithmen nach interessanten, nicht trivialen und bisher unbekannten Mustern zu suchen. Das folgende Beispiel veranschaulicht den Prozess anhand eines Online-Händlers, der Produktbewertungen und Forenbeiträge aus dem Internet auswertet, um Kundenzufriedenheit und Abwanderungsrisiken zu erkennen (vgl. EBI02, S. 14).

Prozessübersicht

Abb. 1: Eigene Darstellung, Data-Mining-Prozess anhand von Internettexten, in Anlehnung an EBI02, S. 14

Schritt 1: Datenbeschaffung (Text Mining)

Der Online-Händler setzt automatisierte Text-Mining-Verfahren ein, die gezielt externe Internetquellen durchsuchen: Produktbewertungsportale (z. B. Rezensionen auf Marktplätzen), Foren, Social-Media-Beiträge und Nachrichtenartikel der eigenen Branche. Die Verfahren selektieren daraus die für das Unternehmen relevanten Textbausteine, etwa Kommentare zu bestimmten Produktkategorien oder Erwähnungen des eigenen Markennamens, und extrahieren diese in einen zentralen Arbeitsbereich (vgl. EBI02, S. 26).

Schritt 2: Integration und Harmonisierung im Data Warehouse

Die gesammelten Texte werden in das Data Warehouse geladen und dem internen Kundendatenbestand zugeordnet. Da externe Texte häufig fehlerbehaftet, unterschiedlich kodiert oder inkonsistent strukturiert sind, ist eine syntaktische und semantische Harmonisierung zwingend erforderlich: Zeichensätze werden vereinheitlicht, Duplikate entfernt und die Texte in ein auswertbares Format überführt. Im Beispiel werden etwa Rezensionen desselben Kunden aus verschiedenen Portalen zu einem einheitlichen Datensatz zusammengeführt (vgl. EBI02, S. 26).

Schritt 3: Mustererkennung (eigentliches Data Mining)

Auf die aufbereiteten Texte werden Algorithmen aus Statistik und Künstlicher Intelligenz angewendet, die nach wiederkehrenden Mustern und verborgenen Strukturen suchen. Die Informationsgewinnung erfolgt auf drei Ebenen (vgl. EBI02, S. 5):

Syntaktische Ebene: Analyse von Worthäufigkeiten: Das System erkennt, dass Begriffe wie „defekt”, „enttäuscht” oder „zurückgegeben” in Bewertungen einer bestimmten Produktgruppe überdurchschnittlich häufig auftreten.
Semantische Ebene: Erschließung von Bedeutungen: Der Algorithmus ordnet diese Begriffe dem Thema „Qualitätsproblem” zu und erkennt einen negativen Stimmungstrend in der Kategorie Elektronik.
Pragmatische Ebene: Ableitung von Intention: Das System erkennt, dass ein Teil der Verfasser ankündigt, künftig bei einem Wettbewerber zu kaufen, ein klares Abwanderungssignal.

Schritt 4: Wissensgenerierung und Entscheidungsunterstützung

Die erkannten Muster werden in handlungsgerichtetes Wissen umgewandelt. Das Management erhält konkrete Erkenntnisse: Welche Produktgruppe hat die höchste Reklamationsquote? Welche Kunden zeigen Abwanderungsabsichten? Diese Erkenntnisse reduzieren die Informationskomplexität und verbessern die Entscheidungsqualität, etwa durch gezielte Qualitätsmaßnahmen oder präventive Kundenbindungsaktionen, bevor der Kunde tatsächlich abwandert (vgl. EBI02, S. 5).