Der Begriff „Dark Data“ bezeichnet Daten, die in Unternehmen im Rahmen von Geschäftsprozessen, Kommunikation oder IT-Betrieb entstehen, gespeichert werden und grundsätzlich verfügbar sind, jedoch nicht oder nur unzureichend ausgewertet, genutzt oder aktiv verwaltet werden. Dabei kann es sich um strukturierte, semistrukturierte oder unstrukturierte Daten handeln. Dark Data entstehen häufig in E-Mails, Dateiablagen, Protokollen, Archiven, Kollaborationsplattformen oder Fachanwendungen. Für Unternehmen sind diese Daten einerseits ein potenzieller Informations- und Wissensschatz, andererseits können sie Risiken in Bezug auf Datenschutz, Compliance, IT-Sicherheit, Speicheraufwand und Datenqualität mit sich bringen.
Datenerkennung und Dateninventarisierung: Auffinden bislang ungenutzter oder wenig transparenter Datenbestände in verschiedenen Systemen, Speicherorten und Anwendungen.
Datenklassifizierung: Automatische oder manuelle Einordnung von Daten nach Inhalt, Relevanz, Sensibilität, Dokumententyp oder Aufbewahrungsstatus.
Indexierung und Metadatenanreicherung: Erschließung von Dateien und Dokumenten durch Volltextindizes, Schlagwörter und zusätzliche Metadaten.
Inhaltsanalyse: Auswertung unstrukturierter Informationen aus Texten, E-Mails, Protokollen oder Dokumenten, um Zusammenhänge, Muster oder relevante Inhalte zu erkennen.
Such- und Retrieval-Funktionen: Schnelles Auffinden verteilter Informationen über unternehmensweite Suchfunktionen und kontextbezogene Filter.
Duplikat- und Redundanzanalyse: Identifikation mehrfach vorhandener, veralteter oder unnötig gespeicherter Datenbestände.
Compliance- und Risikoprüfung: Erkennung von Daten mit regulatorischer Relevanz, personenbezogenen Inhalten oder sicherheitskritischen Informationen.
Aufbewahrungs- und Löschmanagement: Steuerung von Archivierungsfristen, Löschregeln und Datenlebenszyklen zur Reduzierung unnötiger Datenbestände.
Zugriffs- und Berechtigungsanalyse: Prüfung, welche Benutzer oder Rollen Zugriff auf sensible oder bislang unbeachtete Daten haben.
Datenintegration und Nutzbarmachung: Überführung identifizierter Dark Data in Analyse-, BI-, Wissensmanagement- oder KI-Anwendungen.
Monitoring und Reporting: Bereitstellung von Dashboards und Berichten zu Datenvolumen, Speicherorten, Risiken und Nutzungspotenzialen.
E-Mail-Postfächer mit älteren Nachrichten, Anhängen und Gesprächsverläufen, die nie systematisch ausgewertet wurden.
Dateiserver mit unstrukturierten Dokumenten, Präsentationen, Tabellen und PDF-Dateien aus vergangenen Projekten.
Chat- und Kollaborationsdaten aus Tools wie Microsoft Teams, Slack oder internen Messaging-Systemen.
Log-Dateien aus Servern, Anwendungen, Netzwerken oder Sicherheitslösungen, die nur gespeichert, aber nicht aktiv analysiert werden.
Archivierte Verträge, Rechnungen, Protokolle oder Schriftwechsel in DMS-, ERP- oder CRM-Nebensystemen.
Scan-Dokumente und Bilddateien, deren Inhalte ohne OCR oder Klassifizierung nicht nutzbar sind.
Audioaufzeichnungen aus Service-Hotlines oder Meetings, die zwar vorliegen, aber nicht ausgewertet werden.
Sensordaten oder Maschinendaten aus IoT-Umgebungen, die lediglich gespeichert werden, ohne in Analysen einzufließen.
Altdaten aus stillgelegten oder nur noch selten genutzten Fachanwendungen und Archiven.