Der Begriff „Datenversionierung“ bezeichnet die systematische Verwaltung von Änderungen an Daten über deren Lebenszyklus hinweg. Dabei werden unterschiedliche Versionen von Datensätzen gespeichert, um Nachvollziehbarkeit, Reproduzierbarkeit und Transparenz sicherzustellen. Datenversionierung ist insbesondere in datenintensiven Bereichen wie Data Science, maschinellem Lernen, Softwareentwicklung oder Dokumentenmanagement von zentraler Bedeutung. Sie ermöglicht es, frühere Zustände von Daten wiederherzustellen, Änderungen zu vergleichen oder Entwicklungen im Zeitverlauf zu analysieren.
Versionshistorie: Protokollierung aller Änderungen an einem Datensatz inklusive Zeitstempel, Autor und Änderungsbeschreibung.
Vergleich von Versionen (Diff-Funktion): Gegenüberstellung zweier Datenversionen zur Identifikation von Unterschieden.
Wiederherstellung von Versionen: Möglichkeit, ältere Datenstände gezielt zurückzusetzen oder erneut zu aktivieren.
Versionierung strukturierter und unstrukturierter Daten: Unterstützung für Daten in Form von Dateien, Datenbanken oder Dokumenten.
Verzweigungen und Zusammenführungen (Branching und Merging): Parallele Bearbeitung von Daten in verschiedenen Pfaden mit späterer Zusammenführung.
Audit-Logs: Nachvollziehbare Protokolle für Revisions- und Compliance-Zwecke.
Zugriffssteuerung: Rollenbasierte Rechteverwaltung für das Bearbeiten oder Zurücksetzen von Datenversionen.
Ein Data-Science-Team speichert verschiedene Versionen eines Trainingsdatensatzes, um die Modelle auf nachvollziehbarer Datenbasis zu vergleichen.
In einem Dokumentenmanagementsystem wird jede Änderung an einem Vertrag als neue Version mit Kommentar gespeichert.
Eine Entwicklungsabteilung führt eine Datenbankmigration durch und behält ältere Versionen der Datensätze für den Notfallzugriff bei.
Ein Maschinenbauunternehmen verfolgt alle Änderungen an CAD-Dateien seiner Produkte über mehrere Versionen hinweg.