Software-Tipps

Software für Data Mining


Typische Funktionen und Tipps zur Auswahl von Data Mining Software

Was ist Data Mining?

Data Mining ist ein Prozess, der Daten aus unterschiedlichen Blickrichtungen analysiert um neue Erkenntnisse daraus zu gewinnen. In der Regel handelt es sich dabei um große unformatierte bzw. unstrukturierte Datenmengen. Hierzu werden die gesammelten Daten aus den verschiedenen Systemen extrahiert und aufbereitet und dann in einer multidimensionalen Datenbank z.B. im Data Warehouse verwaltet. Zur Analyse der Daten werden die unterschiedlichsten Verfahren (Clusteranalyse1 , Bayes-Klassifikation2 etc.) benutzt und die so gewonnenen Ergebnisse dann graphisch aufbereitet präsentiert. Die graphische Aufbereitung bzw. die Visualisierung bildet den Schwerpunkt des Data Mining.

Beachten Sie bitte auch die aktuelle Marktübersicht der Softwarelösungen und Erklärungen zum Thema Data Mining

Data Mining Anwendungen

Die Data Mining Anwendungen reichen von Marketing-Optimierungen (E-Commerce, Telekommunikation etc) und Risikoprognosen (Banken, Versicherungen usw.), über Warenkorb-Analysen und Betrugserkennung bis hin zu Prozessoptimierung, Fehleranalyse und Qualitätssicherung im Bereich der Industrie. So lassen sich beispielsweise Fehlermuster im Herstellungsprozess erkennen oder Qualitätsmerkmale in Echtzeit überwachen. Data Mining kann ebenfalls für die Software Entwicklung hilfreich sein. Auch Behörden haben Data Mining Tools im Einsatz um z.B. Unregelmäßigkeiten in Geldgeschäften (Geldwäsche) zu erkennen.

Begriffserklärungen

Text Mining

Text Mining 3 ist Wissensgewinnung aus Texten, eine Unterform des Data Minings. Dabei werden unstrukturierte Textdaten gesammelt, aufbereitet und ausgewertet. Textdaten können sowohl aus normalen Textdokumenten als auch von Webseiten oder aufbereiteten Sounddateien oder Bitmaps stammen.

Web Mining

Web Mining ist die Wissensgewinnung über Datenstrukturen im Internet. Dies erfolgt beispielsweise über Web-Traffic-Analyse Programme oder über Tools die zusätzlich auch Data Mining Funktionalitäten besitzen. Diese können dann z.B. eine Stimmungsanalyse, zu bestimmten Meinungen, Produkten oder Dienstleistungen auf Internetportalen oder in sozialen Medien wie z.B. Twitter oder Facebook abbilden. Ausgehend von einer Internetseite kann Web Mining Software verlinkte Seiten und deren Inhalte und dann wiederum die von dort aus verlinkten Seiten und Unterseiten usw. durchsuchen, aufnehmen und analysieren.

Ergänzend zu den allgemeinen Softwarekriterien, die in den vorangegangenen Abschnitten beschrieben wurden, finden Sie nachfolgend fachspezifische Kriterien zur Bewertung von Data Mining Software.


Typische allgemeine Funktionen von Data Mining Tools:

  • Datenaufnahme
  • Crawling
  • Datenvorbereitung (Filtern, Selektieren, Transformieren)
  • Datenbereinigung
  • umfangreiche statistischen Methoden (z.B. Regressionsanalysen, Zeitreihenanalysen)
  • Klassifikations- und Regressionsbäume (CART 4 , CHAID 5 )
  • Interaktive Entscheidungsbäume
  • Clusterbildung
  • Themenverfolgung (Topic Tracking)
  • interaktive Visualisierungswerkzeuge (z.B. concept linking)
  • Themenverbindung (concept linkage)
  • Funktionen für semantisches Wissensmanagement
  • Kategorisierung
  • Informationsextraktion
  • Warenkorbanalyse (z.B. Assoziationen zwischen Produkten und Dienstleistungen)
  • Sequenzanalysen
  • Klassifikation und Vorhersage
  • Unterstützung unterschiedlicher Dokumentarten (txt, pdf,ps,html, xml, Microsoft Office-Formate)

Weitere spezifische Kriterien und Frage-Anregungen für die Beurteilung von Data Mining Software:

  • Fragen Sie, welche Sprachen in der Softwarelösung enthalten sind und ob zusätzliche Sprachen implementiert werden können. So können Sie ggfs. die Datensammlung und Datenauswertung auf weitere Ländergruppen ausdehnen.
  • Fragen Sie, ob die Lösung einen Wortstamm-Algorithmus umfasst, der verschiedene Wörter zu einem Wortstamm rechnen kann. Beispiel: zu “Reise” gehören auch “reisen”, “gereist” usw. Lassen sich die zugrunde liegenden Listen einfach und bedienungsfreundlich ergänzen?
  • Fragen Sie, ob flexible Optionen zur Auswahl mehrerer Dateien über Platzhalter zur Verfügung stehen, so dass Sie z.B. alle Dokumente eines bestimmten Typs auswählen können.
  • Klären Sie, ob beim Text Mining Ausschlussregeln Anwendung finden, die z.B. analytisch irrelevante Artikel wie der-die-das oder andere Wörter wie z.B. "ist" ausschließen.
  • Welche Filtermöglichkeiten umfasst die Software? Können beispielsweise für das Text Mining Filter angewendet werden, die sich auf die Länge der Worte beziehen? Lassen sich Worthäufigkeiten berücksichtigen? Können aus den Worthäufigkeiten zugrunde liegende Dimensionen extrahiert werden.So erlangen Sie zu Erkenntnissen über Bedeutung bzw. Gewichtung von Dokumenten.
  • Klären Sie, ob weitere Algorithmen und Visualisierungsmethoden in das Data Mining Tool integrierbar sind.
  • Klären Sie, ob Sie Dateinamen und URLs in Textvariablen speichern können. Über diese Funktion lassen sich Verweise auf Dokumente oder Webseiten interpretieren.
  • Falls Sie einen Cloud-Service für das Data Mining benutzen, klären Sie die technischen und organisatorischen Maßnahmen des Anbieters zum Schutz der Daten. Ist eine Zertifizierung nach EU-DSGVO vorhanden? Wie sieht es mit dem Löschkonzept aus?
  • Fragen Sie nach den Visualisierungsmöglichkeiten. Entsprechen die Darstellungsfunktionen Ihren Anforderungen?
  • Wie ist die Benutzerfreundlichkeit der Anwendung? Gibt es Dokumentationen, Online-Hilfen wie Webinar, Tutorials etc. oder FAQs?6
  • Testen Sie den Bedienungskomfort und die Benutzerfreundlichkeit und fragen Sie nach individuellen Anpassungsmöglichkeiten, so dass Sie beispielsweise die Benutzeroberfläche nach Ihren Bedürfnissen einrichten können.
  • Sorgen Sie im Vorfeld der Softwaresuche dafür, dass Ihre Problemstellungen ausreichend spezifiziert sind. Fragen Sie den Anbieter, ob die von ihm angebotene Software, die Problemstellungen umfassend abbilden kann.

1 vgl. auch Marktforschungs Wiki Clusteranalyse, aufgerufen am 29.01.2018
2 vgl. auch IBM Knowledge Center Naive Bayes-Klassifikation, aufgerufen am 24.01.2018
3 vgl. auch Enzyklopädie der Wirtschaftsinformatik Text Mining, aufgerufen am 24.01.2018
4 vgl. auch Wikipedia CART - Classification and Regression Trees Algorithmus zur Entscheidungsfindung, aufgerufen am 25.01.2018
5 vgl. auch Wikipedia CHAID - Chi-square Automatic Interaction Detectors Algorithmus zur Entscheidungsfindung, aufgerufen am 25.01.2018
6 vgl. auch: 4 Softwaredokumentation
Abkürzungen:
txt: reine Textdateien
ggfs.: gegebenenfalls
vgl.: vergleiche
IBM: International Business Machines