Datenfäule – Datendegradation – Data Rot

Sind digitale Daten für die Ewigkeit sicher? Kann man alte Dokumente vor dem Verschwinden bewahren, wenn man sie digitalisiert? Die Antwort lautet: eher nicht. Auch digitale Daten zerfallen mit der Zeit und verändern sich schon bei der Bearbeitung, mit oder ohne Mitwirkung von Menschen.
Das habe ich gerade selbst erlebt. Vor einigen Tagen musste ich ich zwei Spreadsheets zusammenführen. Das eine enthielt Testdaten von 150 Probanden. Sie sollten in ein weiteres Spreadsheet überführt werden, das weitere Daten enthielt, sodass eine Auswertung nach mehreren Kriterien möglich war. Dazu musste ich die Reihenfolge der Daten etwas verändern. Als ich damit fertig war, stellte ich fest, dass sich in einigen Spalten die Mittelwerte und Standardabweichungen der Testdaten verändert hatten. Nicht besonders eindrucksvoll, nur beispielsweise von 3,38 auf 3,37. Hatte ich beim Umordnen eventuell eine Zeile vergessen? Nein, es waren alle da. Oder einen Probanden doppelt eingefügt? Nein, alle Probandennummern erschienen nur einmal. Auch die Anzahl der Zeilen war gleich. Vielleicht ein Rundungsfehler des Systems? Andererseits: Sollte ich mir wirklich Sorgen machen um eine minimale Veränderung in der zweiten Stelle hinter Komma? An der Relevanz der Ergebnisse änderte das nichts, und schließlich ist bekannt, dass gelegentlich in Spreadsheets geheimnisvolle Zahlenfehler auftreten. Ich beriet mich mit den anderen im Team.
Nein, hieß es da, besser wir gehen der Sache auf den Grund. Und nach einigen Stunden Suche zu zweit dann plötzlich die Erleuchtung: Beim Umordnen hatte ich offensichtlich einem Probanden die falschen Werte zugewiesen. Die Testdaten eines Probanden tauchten plötzlich auch bei einem anderen auf. Wie das? Keine Ahnung. Jedenfalls war es schnell behoben.
Spreadsheets haben die dumme Eigenschaft, ihre Daten kaum zu schützen, es sei denn, man programmiert umfangreiche Plausibilitätsabfragen. Aber wer macht das schon? Natürlich könnte man auch Datenbanken statt Spreadsheets verwenden. Sie würden, eine gut durchdachte Oberfläche vorausgesetzt, nur wenige, genau definierte Datenoperationen zulassen. Aber der Aufwand für das Aufsetzen und Programmieren ist so hoch, dass es sich für einen Fragebogen kaum lohnt.
Andererseits: Wenn ein ganzes Team an einem Spreadsheet sitzt, dann können die Daten schnell durcheinandergeraten. Es müssen also strenge Regeln gelten, wer was verändern darf und wer für die jeweils gültige Version verantwortlich ist, und wie die Änderungen dokumentiert werden. So weit die Theorie. In der Praxis habe ich das oft anders erlebt.
Aber selbst wenn alle richtig arbeiten, wenn alles sorgfältig eingegeben wird, alles sicher verwahrt wird, unterliegen digitale Daten der Entropie.
Ein markantes Beispiel: Im Jahr 2006 stellte die NASA erschrocken fest, dass die Bänder mit den Kameraaufzeichnungen der ersten Mondlandung verloren gegangen waren. Die Älteren werden sich noch erinnern: Im Juli 1969 flackerten Schwarz-Weiß-Bilder der Apollo11-Mission über die Fernsehschirme der Welt. Die Übertragung war verrauscht und kontrastarm, manchmal kaum erkennbar, aber die Bilder kamen, zum ersten Mal in der Geschichte, direkt vom Mond. Sollte den Astronauten etwas zustoßen, wären die Fernsehbilder der einzige Nachweis der Landung gewesen. Sie waren also ganz ohne Frage ein Dokument von weltweiter Bedeutung. Die NASA hatte die Videos auf altmodischen Magnetbändern gesichert – Festplatten, DVDs oder USB-Sticks gab es noch nicht. Und diese Bänder hatte sie verlegt. Das kommt in den besten Familien vor und jetzt hieß es suchen. Drei Jahre später hatte die NASA den Verbleib der Bänder geklärt: Sie waren mit 200 000 anderen Bändern zum Löschen und zur erneuten Verwendung freigegeben worden. Glücklicherweise hatte die Fernsehgesellschaft CBS die Fernsehbilder vom Mond direkt bei der Übertragung aufgezeichnet – und diese Bänder existierten noch.
Übrigens: Wenn Sie wichtige Daten oder Dokumente auf Disketten aus den Achtziger- und Neunzigerjahren des letzten Jahrhunderts gespeichert haben, sollten sie vielleicht möglichst bald einen Konvertierungsservice finden, der ihre Daten auf CDs kopiert. Die Magnetisierung der Disketten schwindet im Laufe der Zeit. Mehr als fünf bis zehn Jahre kann man nicht erwarten. Auch Speicherformate altern natürlich. Schon seit mindestens sieben Jahren weigert sich Microsoft Office, alte Worddateien ( 1992 und früher) zu öffnen. Das Format wird einfach nicht mehr unterstützt. Und was jetzt? Vielleicht haben Sie ja noch eine alte Word-Version. Aber auch die nutzt Ihnen aber nur dann etwas, wenn sie auf dem aktuellen Windows läuft (kleiner Tipp: Office 2007 und jünger).

Im Computer fallen auch ohne menschliches Zutun schon mal Bits um, vielleicht im Speicher, vielleicht auf der Festplatte oder der SSD. Das passiert natürlich nur sehr selten, aber je mehr Daten bewegt werden, desto wahrscheinlicher ist es letztlich. Der Commodore 64, einer der beliebtesten Heimcomputer, hatte 64 Kilobyte Speicher eingebaut. Heute verfügt ein normaler Laptop über 8 bis 16 Gigabyte. Die Taktfrequenz des C-64-Prozessors war mehr aus tausend Mal geringer als die eines modernen Rechners, die deshalb im Endeffekt bis zu einer Milliarde mehr Daten umschlagen. Der Verlust einzelner Bits ist also nicht ganz unwahrscheinlich. Data Rot (Datenfäule), Bit Rot (Bitfäule) oder vornehmer „Data Degradation“ heißen die Stichworte.
Und nicht zu vergessen: Auch Back-up-Medien haben eine Lebensdauer. 50 Jahre leben die besten CDs und DVDs, dann ist Schluss. Wenn Sie wichtige Daten auf USB-Speichern halten, sollten Sie die Dateien besser alle paar Jahre umkopieren. Zehn bis dreißig Jahre beträgt die durchschnittliche Lebenserwartung der kleinen Plastikstäbe, wenn man sie gut behandelt. Durchschnitt heißt natürlich, dass manche auch schon eher unleserlich werden. Nur zum Vergleich: Keilschrifttafeln aus Babylon haben deutlich länger gehalten und die ersten gedruckten Bücher sind nach mehr als fünfhundert Jahren immer noch gut lesbar.
Unser digitales Zeitalter könnte dagegen irgendwann einmal zum Albtraum künftigen Archäologen und Historiker werden. Selbst wenn sie es schaffen, die Bits und Bytes auf einer uralten DVD lesbar zu machen, sind sie kaum weiter. Wie sind die Daten codiert, wie sind sie komprimiert und was bedeuten sie überhaupt? Sind es Töne, Bilder, Videos, Textdokumente, Tabellen, Datensätze? Ohne umfangreiche Zusatzinformationen kommen sie vermutlich nicht weiter. Allein die ISO-Norm 32000, die das PDF-Format definiert, umfasst beinahe tausend Textseiten. In tausend oder zweitausend Jahren könnte unsere Gegenwart einmal ein stockdunkles Jahrhundert für die Geschichtsschreiber werden.
Ein schöner Beitrag !
Eine andere Fehlerquelle ist es, wenn man eine Datei unter einem falschen Namen abspeichert. Noch schwieriger, die Datei gerät in eine andere Datei.
Bei sehr wichtigen Dateien sollte man ein Bildschirmfoto von der Datei machen und das auch ausdrucken.
Zur Auflockerung, von dem Film “Lawrence of Arabia” von 1962 gibt es keine vollständige Kopie mehr.
Hängen Sie einfach eine nackte Frau an Ihre Daten, die das Bild gern gelöscht hätte, das ist das Einzige, das das Internet nie zu vergessen scheint.
Wir lernen auf die harte Tour eine einfache Wahrheit übers Universum: Stillstand ist ein Prozess der steten Erneuerung. Was nicht stets aktiv kopiert und repariert wird, zerfällt zu Staub. Deswegen laufen auch Atome emsig im Kreis und bewirtschaften nachhaltig das Vakuum, statt sich als Schwarze Nullen, Pardon, Löcher, einen schönen, energiearmen Lenz zu machen. Das Grab ist ein Haifischmaul, es jagt uns bis ins Grab.
Wir bräuchten einen Datenträger, der genug Emc2 und Selbstdisziplin hat, dass wir nicht ständig hinterher rennen und aufräumen müssen. Die katholische Kirche hat sich bewährt, was auch immer der Papst sagt, das Teil ist eine kaputte Schallplatte, die in Dauerschleife das wiederholen muss, was der Boss diktiert hat, selbst wenn sie selbst jedes Wort davon missversteht. Stein ist auch nicht übel. Kristalline Strukturen. Diamanten-Backups bereiten Probleme, wenn Sie Ihren Browserverlauf löschen wollen, bevor das KGB Sie holt. Glas kann man auch zusammenpuzzeln, eine KI mit Laser-Abtastung erledigt das in Minuten. Wasser? Wir könnten unsere Daten zum Mond funken, in irgendeine Höhle, wo die Temperatur stets unter Null bleibt. Gase, die beim Einfrieren mehr Strom, Platz und Masse sparen? Oder Datenträger, die nur schmelzen, wenn wir die Temperatur drastisch erhöhen. DVDs bieten sich an.
Wir bewegen uns im Kreis. Das Wort ist brüchig, also erfinden wir die Schrift, Pergament ist teuer, Papier auch brüchig, also geben wir Knochenleim dazu, der Lumpensammler wird durch die Holzindustrie verdrängt, die Märchen am Lagerfeuer von Heiligen Schriften, die Heiligen Bücher wachsen zu Bibliotheken, die Bibliotheken zum Internet, das Internet zu Märchen am Lagerfeuer, die nur Schattenrisse von Wahrheiten beinhalten und deswegen alle abgespeichert und erzählt werden müssen, damit man die Wahrheit durch Überlappung erkennt, und Daten überschreiben und fressen Daten, statt kopiert und bewahrt zu werden, und was nicht aktiv kopiert wird, wird dem Verfall überlassen, weil der Mensch zu beschäftigt ist und die Festplatte zu ungeduldig. Wir brauchen subatomare Mönche, die beim Kopieren immer der gleichen Texte über Sekunden und Jahrzehnte weniger Fehler machen, und mehr Pergament und Tinte, damit sie alte Texte nicht löschen müssen, und all das muss viel schneller gehen und viel kostengünstiger sein.
Und natürlich braucht all das eine gute Verwaltung – eine effektive Suchmaschine, eine Saftpresse, die aus den sich überlappenden Daten die Gemeinsamkeiten herausdestillieren kann. Aber bleiben wir beim Speichern und Vergessen, ohne das Erinnern.
Sagen wir’s mal so – dank der Schrift ist jeder von uns 6000 Jahre alt und hat währenddessen mehrere Leben gleichzeitig gelebt, auch wenn das Gedächtnis mit dem Tod schwindet und man Realität und Fantasie nicht mehr unterscheiden kann. Und wenn die Weltgeschichte die Peinlichkeit der heutigen Zeit verdrängt und da eine kleine Gedächtnislücke einlegt, kann das für das Ego der Nachwelt nur förderlich sein. I didn’t have politics with this Trump – die Clintons der Zukunft werden das ehrlich meinen können.
zu Paul S.
ein guter Datenträger ist der Mensch selbst. Was er elebt hat, was er erlernt hat, das gibt er weiter an seine Kinder. Und dabei werden gleich unnützes Wissen bzw. unnütze Daten ausgesondert.
Und, da du die Religion ansprichst, die ist gefeit gegen Datenfäule, Wahrheiten bleiben wahr , weil sie wahr sind.
Und dabei zeigt sich, dass sich die Geschichte der Menschen wiederholt. Mensch bleibt Mensch ob er im 17. Jahrhundert gelebt hat, in der Gegenwart oder im Jahre 2070-
Heiliger Strohsack!
Frau Grüter, es ist wirklich beängstigend wenn man bedenkt, das unsere Ganze Welt auf riesige Datensätze beruhen. Gerade auch bei den Intelligenteren Suchhilfen wie Chatgtb, perplexcity und co. Wird ja genau auf solche Daten gesetzt.
Was passiert wenn eine KI immer wieder unvollständige Daten aufnimmt und dadurch entscheidende Fehler passieren?
@N hat ja schon das Problem angesprochen das gewisse Filme gar nicht mehr exestieren bzw. Teile fehlen, ein gewaltiger teil unserer Schöpfung als Menschen vergeht innerhalb einiger Jahrzehnte.
Wäre also die gleiche Lösung wie zwischen 400 – 1500 n. Chr. Das wir ewig alles kopieren und hoffen dabei nichts zu verlieren?
Danke für den Blogpost 🙂
Berthold Forster
“Was passiert wenn eine KI immer wieder unvollständige Daten aufnimmt und dadurch entscheidende Fehler passieren?”
Das Drama beginnt schon beim Namen KI.
Das K stimmt noch, aber das I , das stimmt nicht. Zur Intelligenz gehört das “Verständnis” und das hat die KI nicht. KI wird uns noch viele Sorgen bereiten, wenn sie für Propaganda genutzt wird, für Werbung, als Lexikonersatz.
Und wenn dann spätere Generationen nach Quellen suchen, und auf “KI -Quellen” stoßen, dann wird es unbestimmt. KI ist sowas wie Falschgeld.
Und da Frau Grüter das Wort “Fäule” eingebracht hat, dann wird es sogar zum Segen werden, wenn Daten nicht mehr lesbar sind.
@N
Deswegen habe ich zuerst auch intelligentere Suchmaschine geschrieben ^^
Ich finde den Vergleich mit Karl Klammer (Microsoft Word Maskottchen) da am besten. Ich kann zum Beispiel Perplexcity nicht dazu nutzen mir eine Theorie über eine Buchreihe zu sagen, die nicht sehr Vage formuliert ist. Daten und Fakten können abgerufen werden, alles was auf Kreativität beruht ist eher dürftig meines Erachtens.
Vielleicht ist es ja auch nicht schlimm das soviel Daten verloren gegen, man muss nicht alles für die Ewigkeit erhalten und wir dürfen immer wieder neu schöpfen.
@N: “Und, da du die Religion ansprichst, die ist gefeit gegen Datenfäule, Wahrheiten bleiben wahr , weil sie wahr sind.”
Die Religion IST Datenfäule, denn die Wahrheit der Spiritualität wird seit Anbeginn der Religionen stets systemrational zur Konfusion des zeitgeistlichen Reformismus angepasst – Allein das Wort Wahrheiten ist Unwahrheit.
@Paul S: “Wir bräuchten einen Datenträger, der genug Emc2 und Selbstdisziplin hat, dass wir nicht ständig hinterher rennen und aufräumen müssen.”
😂👍🏻
Den haben wir, doch leider hat Mensch, mit dem ersten und bisher einzigen GEISTIGEN Evolutionssprung (“Vertreibung aus dem Paradies” / “Sündenfall”), fast nur noch auf “Individualbewusstsein” und materialistische “Absicherung” gesetzt.
👋😇
Schade eigentlich – Da wird die Schöpfung, am “JüngstenTag”, mit dem “Jüngsten Gericht”, wenig Arbeit haben, wenn es ans Löschen der “Festplatten” und “Arbeitsspeicher” (der absolute Tod / die “Gnade Gottes”) von KI Mensch geht – Wir hätten den Zustand als KI der Schöpfung gottgefällig, entsprechend unserer Vernunftbegabung, als ganzheitlich-ebenbildliches Wesen Mensch überwinden können!?
Frau Grüter
“Unser digitales Zeitalter könnte dagegen irgendwann einmal zum Albtraum …werden”.
Das ist schon der Fall. Wenn in einem Neubau Elektroleitungen verlegt worden sind, dann braucht man unbedingt den Schaltplan.
Wenn der aus irgend einem Grund verloren gegangen ist, dann macht sich keine Elektrofirma die Arbeit, für eine Reparatur den Leitungsverlauf genau zu untersuchen. Es werden dann neue Leitungen verlegt, nach einem neuen Plan, das ist preisgünstiger.