Software-Tipps

Big Data Analyse


Tipps für Software zur Big Data Analyse
Big Data Analyse
Tipps für Software zur Big Data Analyse

Was ist Big Data?

"Daten sind die Rohstoffe des 21. Jahrhunderts", betonte Angela Merkel (Bundeskanzlerin der Bundesrepublik Deutschland 2005 - 2021) in einem Videostatement zur Cebit im März 2016.

Big Data ist ein Sammelbegriff für eine ganze Reihe von anfallenden Massendaten. Während beispielsweise in der Finanzindustrie täglich massenhaft Börsendaten, Transaktionsdaten etc. anfallen, werden in der Industrie tagtäglich automatisch Daten bei Produktionsprozessen erhoben bzw. fallen die unterschiedlichsten Verbrauchsdaten oder Kommunikationsdaten an. Die Analyseansätze und -methoden sowie die Art der Visualisierung bestimmen dabei im Wesentlichen darüber, welche Erkenntnisse sich aus diesen Datenmengen gewinnen lassen.

Beachten Sie bitte auch die aktuelle Marktübersicht der Softwarelösungen und Erklärungen zum Thema Big Data


Typische Funktionen von Big Data Analyse Software sowie Auswahlkriterien und Frage-Anregungen finden Sie weiter unten auf dieser Seite.

 

Begriffserklärungen

Metadaten

Metadaten sind gewissermaßen Daten über andere Daten. Metadaten enthalten Informationen zu weiteren Daten und fassen diese zusammen oder ergänzen diese (z.B. werden Fotos beim Abspeichern der Aufnahme mit solchen weitergehenden Infos wie Belichtungszeit, Ort und Blendenzahl versehen). Auch im Bereich von Maschinendaten und Messwerten fallen Metadaten an. Sie können getrennt von Daten gespeichert und analysiert werden. Durch die Verarbeitung von Metadaten beschleunigt sich die Big Data Analyse.

Hadoop

Hadoop ist ein Java basiertes Software Framework. Das Hadoop Framework unterstützt rechenintensive Prozesse, wie sie im Bereich von Big Data anfallen. Hadoop setzt sich aus einem Set von grundlegende Funktionen, dem Hadoop Common und einem Cluster-Dateisystem, dem Hadoop Distributed File System zusammen. Es umfasst außerdem den von Google entwickelten MapReduce-Algorithmus auf dessen Basis die Daten verarbeitet werden.

Predictive Maintenance

Mit dem Begriff Predictive Maintenance wird die “vorhergesagte Wartung” von Maschinen und Anlagen in der Industrie 4.0 bezeichnet. Für diesen Zweck werden eine sehr große Menge an Daten erfasst und gespeichert. Diese Massendaten werden dann mittels Software und verschiedener Analysemethoden aus dem Bereich Big Data ausgewertet. Es werden dann Eintrittswahrscheinlichkeiten für bestimmte Ereignisse errechnet. Diese bilden dann die Handlungsgrundlage für die Wartung.

Process Mining

Process Mining stellt die Verbindung zwischen dem Data Mining und dem Prozessmanagement dar. Es dient der Analyse von Geschäftsprozessen. Hierbei wird auf die verteilt im Unternehmen vorhandenen Prozessdaten (z.B. das Process Log von ERP-Systemen) zugegriffen. Diese Daten werden durch das Process Mining zusammengeführt und visualisiert. Ziel ist die Prozessoptimierung z.B. in Bezug auf die Kosten, die Durchlaufzeiten oder die Compliance.

Streaming-Daten

Streaming-Daten sind solche Daten, die permanent anfallen, aufgezeichnet werden und in kleinen Datenpaketen in die Cloud geschickt werden. Das sind z.B. Daten von mobilen Apps, Daten über Einkäufe im Internet oder Informationen aus sozialen Netzwerken oder Telemetriedaten von Transportfahrzeugen.

Ergänzend zu den allgemeinen Softwarekriterien, die in den vorangegangenen Abschnitten beschrieben wurden, finden Sie nachfolgend fachspezifische Kriterien zur Bewertung von Big Data Analyse Software.


Typische allgemeine Funktionen:

  • schneller Datenimport
  • Inspektion und Bereinigung der Daten
  • schnelle Suche und Abfrage von Daten
  • Import von Metadaten
  • Speicherung über verschiedene Quellen
  • Unterstützung verschiedene Datenbanktypen
  • gleichzeitige Bearbeitung mehrerer Abfragen
  • Datenmanipulation (neue Attribute)
  • Datenselektion (Filter)
  • verschiedene Farbcodierungsmöglichkeiten
  • 1D-/ 2D-Streudiagramme
  • BoxPlots
  • Korrelationsmatrix
  • Entscheidungsbaumanalyse
  • Analyse unterschiedlicher Informationstypen
  • Visualisierung von Prozessdaten, Kennzahlentrends etc.
  • Echtzeitauswertungen und Anzeigen
  • Parallele Koordinaten (Zoom, Farbcodierung, Boxplots, Histogramme)
  • Unterstützung einer Vielzahl statistischer Methoden

Weitere spezifische Kriterien und Frage-Anregungen für die Beurteilung von

  • Fragen Sie nach, ob das Analyse Tool auch Geodaten verarbeiten und auf Landkarten projizieren kann, falls Sie auf geospezifische Auswertungen angewiesen sind. Dies ist z.B. wichtig, wenn Sie ein Produkt in unterschiedlichen Varianten für verschiedene Länder anbieten wollen.
  • Klären Sie, ob weitere Algorithmen und Visualisierungsmethoden in das Big Data Analyse Tool integrierbar sind.
  • Wenn Sie Ihre Anwendungsfälle definiert haben und die Analyseverfahren festgelegt haben, klären Sie, ob diese Analyseverfahren mit der gewählten Software und Plattform einsetzbar sind.
  • Erkundigen Sie sich nach der Skalierbarkeit der Analyse Plattform. Es fallen enorme Datenmengen an und die Plattform muss mitwachsen können. Gibt es ausreichende Im- und Exportfunktionen, falls die Daten migriert werden müssen. Gibt es einen Migration Service?
  • Klären Sie die technischen und organisatorischen Maßnahmen des Plattform Anbieters zum Schutz der Daten. Ist eine Zertifizierung nach EU-DSGVO vorhanden? Wie sieht es mit dem Löschkonzept aus?
  • Testen Sie die Tools zur Visualisierung der ausgewerteten Daten und prüfen Sie, ob diese Ihren Anforderungen entsprechen. Gibt es übersichtliche Dashboards um die eingehenden Daten zu organisieren? Können Sie diese Dashboards Ihren Erfordernissen anpassen?
  • Fragen Sie, ob die Lösung sowohl Batch-Verarbeitung als auch Streaming-Verarbeitung umfasst. Fragen Sie auch, ob evtl. ein Hybridmodell, das beide Datenverarbeitungsansätze beinhaltet, im Einsatz ist. Streaming-Verarbeitung ist wichtig für eine Echtzeitüberwachung von Daten (beispielsweise bei Sensoren in Transportfahrzeugen, Landwirtschaftsmaschinen etc.). Mittels Batch-Verarbeitung werden die langfristig gesammelten Daten analysiert.
  • Klären Sie, ob bestimmte Services des Anbieters europaweit oder weltweit zur Verfügung gestellt werden. Kontrollieren Sie, wo sich die Daten physisch befinden, so dass Sie die Compliance1 sicherstellen können.
  • Erkundigen Sie sich, ob der Plattformanbieter umfangreiche Tutorials, Webinare, Handbücher und Anleitungen (beispielsweise für die Architekturen) zur Verfügung stellt, so dass Ihr Einstieg in die Big Data Anwendungen erleichtert wird.
  • Fragen Sie, welche Backup bzw. Recovery Strategien und Funktionen für Ihre Big Data seitens des Plattformbetreibers vorgesehen sind. Unter Umständen müssen Sie diese Maßnahmen noch durch weitere unternehmensinternen Maßnahmen ergänzen. Können beispielsweise Remot-Disaster-Recovery Kopien angelegt werden? Prüfen Sie dabei, welche Daten tatsächlich geschäftskritisch sind und sichern Sie dies auf jeden Fall.
  • Sorgen Sie im Vorfeld der Softwaresuche dafür, dass Ihre Problemstellungen ausreichend spezifiziert sind. Fragen Sie den Anbieter, ob die von ihm angebotene Software, die Problemstellungen umfassend abbilden kann.

1 Einhaltung gesetzlicher oder freiwilliger Regeln und Richtlinien
Abkürzungen:
evtl.: eventuell