Bundesamt für Sicherheit in der Informationstechnik

M 4.170 Auswahl geeigneter Datenformate für die Archivierung von Dokumenten

Verantwortlich für Initiierung: Leiter IT

Verantwortlich für Umsetzung: Administrator, Leiter IT

Für die Archivierung elektronischer Dokumente müssen geeignete Datenformate gewählt werden. Das Datenformat sollte langfristig eine originalgetreue Reproduktion der Archivdaten sowie ausgewählter Merkmale des ursprünglichen Dokumentmediums (z. B. Papierformat, Farben, Logos, Seitenzahl, Wasserzeichen, Unterschrift) ermöglichen. Die derzeit verwendeten Datenformate sind hierfür unterschiedlich geeignet, ihre Eignung hängt sehr stark vom Einsatzzweck der archivierten Daten und ihren Ursprungsmedien ab. Bei einem Wechsel des Medien- und Datenformats können jedoch in der Regel nicht alle Strukturmerkmale des Ursprungsmediums gleichzeitig abgebildet werden.

Da im Vorfeld meist nicht absehbar ist, welche Merkmale des Originaldokuments bei einer späteren Reproduktion nachgewiesen werden sollen und mit welcher Nachweiskraft dies erfolgen soll, werden Dokumente typischerweise in mehreren elektronischen Datenformaten gleichzeitig archiviert. Dadurch soll eine möglichst hohe Überdeckung der Merkmale des Originaldokuments erreicht werden. Der Konvertierungsvorgang wird häufig als Rendition bezeichnet.

Für die Wahl geeigneter Datenformate sind folgende Kriterien maßgeblich:

  • das Datenformat sollte möglichst langfristige Relevanz haben,
  • die Dokumentstruktur sollte eindeutig interpretiert werden können,
  • der Dokumentinhalt sollte elektronisch weiterverarbeitet werden können,
  • Beachtung gesetzlicher Vorschriften,
  • die Grammatik und Semantik des Datenformates muss ausführlich dokumentiert sein, so dass eine spätere Migration problemlos möglich ist,
  • Merkmale des Originaldokuments (elektronisch oder in Papierform) sollen später eindeutig nachweisbar sein, auch wenn das Originaldokument nicht mehr vorhanden ist.

Typischerweise wird neben einer strukturellen Repräsentation (in einer Strukturbeschreibungssprache) bei Papierdokumenten auch eine graphische Repräsentation des Dokuments archiviert. Hinzu kommen unter Umständen elektronische Signaturen zur Beglaubigung der Authentizität.

In den folgenden Abschnitten werden einige typische Datenformate beschrieben und ihre Eignung für die elektronische Archivierung diskutiert.

A. Strukturformate

SGML

SGML (Standard Generalized Markup Language) ist eine Dokumentenbeschreibungssprache, die die logische Struktur und den Inhalt von elektronischen Dokumenten beschreibt. SGML ist als ISO-Norm 8879 standardisiert.

Neben der Struktur (Syntax) von Dokumenten beschreibt SGML insbesondere die Semantik der Strukturelemente des elektronischen Dokuments. SGML bildet jedoch nicht die konkrete Darstellung und Formatierung der Dokumentinhalte bei der Wiedergabe ab.

Wichtige Merkmale von SGML sind:

  • Die Semantik der SGML-Elemente wird separat in der so genannten DTD (Document Type Definition) definiert. Die DTD dient als Grundlage für den Dokumentenaustausch zwischen Institutionen bzw. Applikationen.
  • SGML ist für die unabhängige Darstellung und Speicherung von strukturierten Textdokumenten geeignet, da die Layout-Informationen vom Dokumenteninhalt getrennt behandelt werden.
  • SGML kann direkt für die Abbildung von Strukturen in Dokumenten-Management-Systemen verwendet werden.

SGML kann als Format für die Langzeitarchivierung von elektronischen Dokumenten genutzt werden. Bei der Archivierung ist jedoch unbedingt auch die Semantikspezifikation (DTD) zu archivieren. Da SGML keinerlei Layout-Informationen beinhaltet, wird empfohlen, zusätzlich zu SGML-Dokumenten eine graphische Repräsentation des Ursprungsdokuments zu archivieren, z. B. im Format TIFF.

HTML

HTML (Hyper Text Markup Language) ist eine Strukturbeschreibungssprache für elektronische Dokumente. HTML basiert auf einer Untermenge der SGML-Beschreibungselemente und hat sich zum Standard für die Darstellung und den Dokumentenaustausch im World Wide Web entwickelt.

HTML bietet eine sehr eingeschränkte Zahl möglicher Strukturmerkmale für Dokumente und ist als SGML-Spezialisierung mit impliziter DTD zu verstehen.

Wichtige Merkmale von HTML sind:

  • In HTML können Dokumentteile durch "Hyperlinks" zu einer Gesamtdokumentstruktur zusammengefügt werden. Hierdurch können in den laufenden Text Bilder und Textteile eingebunden werden, die physikalisch auf verteilten Servern gelagert sind. Es ist aufgrund der dynamischen Anbindung möglich, dass sich ohne Kenntnis des Dokumentinhabers Teile des Gesamtdokuments ändern, da hinzugelinkte Unterkapitel oder Bilder verändert wurden oder nicht erreichbar sind.
  • HTML ist auf die bestehenden Strukturmerkmale festgelegt. Weder die Syntax noch die Semantik der so genannten HTML-Tags kann individuell ergänzt oder erweitert werden.
  • Aufgrund der mangelhaften Flexibilität von HTML ist es bei Veränderungen der Anforderungen notwendig, den HTML-Standard zu überarbeiten. Dies erfolgte in den letzten Jahren regelmäßig durch das zuständige Standardisierungsgremium (W3C-Konsortium). Daneben wurden eigenmächtige Erweiterungen durch Hersteller von HTML-Browsern vorgenommen. Auch zukünftig ist mit ständigen Erweiterungen der Sprache zu rechnen.

HTML wird als Format für die Langzeitarchivierung nicht empfohlen. Es ist nicht für die Archivierung geeignet, da aufgrund der mangelhaften syntaktischen und semantischen Flexibilität auch künftig in kurzen zeitlichen Abständen Erweiterungen des HTML-Standards zu erwarten sind.

Es ist zudem nicht geeignet, da aufgrund der dynamischen Struktur der HTML-Dokumente eine Archivierung des Gesamtdokuments erfolgen muss, d. h. inklusive aller verlinkten Bilder, Subdokumente und Querverweise. Bei der Archivierung von HTML-Dokumenten dürfen keine aktiven Links zu nicht archivierten Dokumentteilen mehr vorhanden sein, da nicht sichergestellt werden kann, dass solche externen Dokumentteile bei späteren Reproduktionen zur Verfügung stehen.

XML

Aufgrund der eingeschränkten Funktion von HTML wurde vom W3C eine Möglichkeit geschaffen, die Vorteile der Sprache SGML zu nutzen, gleichzeitig aber nicht deren volle Komplexität einzubringen. XML wurde als Teilmenge von SGML entwickelt.

Wichtige Merkmale von XML sind:

  • In XML können - im Gegensatz zu HTML - Tags und Attribute neu definiert werden. Hierdurch können Anpassungen an der Syntax und Semantik der Beschreibungselemente vorgenommen werden.
  • Analog zu HTML können Links in die Dokumentenstruktur integriert werden. Somit können auf einfache Art und Weise bestehende Dokumente referenziert und z. B. Bilder in Dokumente eingebunden werden.
  • XML kann direkt in neueren Web-Browsern angezeigt werden. Zur Darstellung wird eine separate Definition des Layouts in Form der Beschreibungssprache XSL (Extensible Stylesheet Language) benötigt.

XML kann als Format für die Langzeitarchivierung von elektronischen Dokumenten genutzt werden. Bei der Archivierung sind jedoch unbedingt auch die Semantikspezifikation (DTD - Document Type Definition) und ggf. auch die Layout-Informationen, in XSL beschrieben, zu archivieren.

PDF

PDF (Portable Document Format) ist ein Dokumentformat, bei dem neben der Strukturinformation von elektronischen Dokumenten auch wesentliche Layout-Informationen mitgespeichert werden.

PDF wurde von der Firma Adobe auf Basis des Datenformats PostScript entwickelt.

Das Erscheinungsbild wird dabei durch einen Datenstrom beschrieben, der eine Reihe von graphischen Objekten enthält. Durch diese Beschreibung ist ein Dokument vollkommen festgelegt. Die Entscheidung über das Erscheinungsbild wird dabei zum Zeitpunkt der Erstellung des Dokuments getroffen und ist dann fixiert. Gegenüber einer rein bildlichen Darstellung (Pixeldarstellung) benötigen Dokumente im PDF-Format meist deutlich weniger Speicherplatz.

Zielsetzung beim Einsatz von PDF ist, das Erscheinungsbild eines elektronischen Dokuments unabhängig von der zur Erstellung benutzten Anwendungs-Software, der Hardware-Plattform oder dem Betriebssystem zu bewahren. PDF eignet sich daher primär für die Archivierung von Dokumenten, bei denen eine Abbildung in Papierform vorgesehen ist bzw. die den Charakter von Briefen und Geschäftsdokumenten haben.

Speziell für die Anforderungen der Langzeitarchivierung wurde mit PDF/A eine Version von PDF als ISO 19005-1:2005 genormt. PDF/A (A steht hier für Archivierung) definiert eine stabile Untermenge von PDF, mit der zu archivierende Dokumente so beschrieben werden können, dass alle erforderlichen Informationen in der Datei selber enthalten sind und zwar vollständig, eindeutig, zugänglich und erschließbar.

PDF/A kann als Format für die Langzeitarchivierung von elektronischen Dokumenten genutzt werden. Hierbei ist die Konformität der Dokumente zur PDF/A-Spezifikation zu überprüfen.

B. Bildformate

TIFF

Das Format TIFF (Tagged Image File Format) wird zur Speicherung gerasterter Bilder verwendet. Eine TIFF-Datei besteht aus einem Datei-Header und der Bildinformation. Der Header enthält so genannte Tags, in denen Eigenschaften des aufgezeichneten Bildes gespeichert sind, z. B. Auflösung oder verwendete Kompressionsverfahren.

Wichtige Merkmale von TIFF sind:

  • Bildinformationen können sowohl in Schwarz/Weiß als auch in Grauabstufungen verlustfrei gespeichert werden, jedoch nur dann, wenn eine Farbtiefe von 24 Bit (Truecolor) gewählt wird. Nur in dieser Stufe können alle Graustufen wiedergegeben werden. Um Farbinformationen originalgetreu aufzunehmen und zu speichern, ist jedoch eine regelmäßige Feineinstellung der optischen Sensoren notwendig, damit die Farbinformation nicht durch Farbverschiebungen verfälscht werden. Dies kann z. B. durch einen Farbabgleich mit Weiß als Referenzfarbe erfolgen.
  • Alle gängigen Graphik- und Präsentationsprogramme unterstützen das TIFF Format. Darüber hinaus wird es auch von Archiv- und Workflow-Systemen unterstützt.
  • Faxgeräte benutzen TIFF als gängiges Datenformat.
  • Die Bilddaten können komprimiert abgespeichert werden. TIFF ist mit den meisten Kompressionsverfahren kompatibel. Zwei der wichtigsten Kompressionsverfahren werden hier kurz angesprochen:
    • ITU/ CCITT - Gruppe 4:
      Die ITU-Kompression benutzt TIFF als Eingangsformat. Dabei wird bei normalen Textdokumenten ein Kompressionsfaktor von etwa 1:40 erreicht. Es ist damit ideal geeignet für Schwarz/Weiß-Dokumente. Die Kompression ist verlustfrei.
      Die ITU-Kompression ist im Bereich der Archivierung weltweit standardisiert.
    • JBIG:
      JBIG ist ein verlustfreies Kompressionsverfahren für Schwarz/Weiß-Bilder im TIFF-Format. Es ist in der ISO/IEC-Norm 11544 standardisiert. Im Vergleich zur ITU-Gruppe-4-Kompression arbeitet es bis zu 70% effektiver.
      JBIG ist derzeit nicht so weit verbreitet wie das ITU-Verfahren und wird nicht von allen Herstellern unterstützt.

TIFF ist in komprimierter Form als Format für die Langzeitarchivierung von Bildern und Bildrepräsentationen von Dokumenten geeignet. Es wird empfohlen, ein verlustfreies Kompressionsverfahren zu verwenden, z. B. ITU/CCITT-Gruppe 4, um den benötigten Speicherbedarf zu minimieren.

GIF

Das Format GIF (Graphics Interchange Format) wird zur Speicherung gerasterter Bilder verwendet.

Wichtige Merkmale von GIF sind:

  • Alle gängigen Graphik- und Präsentationsprogramme unterstützen das GIF-Format. Darüber hinaus wird es auch von Archiv- und Workflow-Systemen unterstützt.
  • Die Konvertierung in GIF ist verlustbehaftet, es gehen zugunsten einer geringen Dateigröße Bildinformationen verloren.
  • Die Verwendung des Formats GIF in Applikationen ist lizenzpflichtig.

Der Einsatz des Formats GIF wird für die Langzeitarchivierung nicht empfohlen, jedoch kann GIF für die kurz- und mittelfristige Archivierung eingesetzt werden.

JPEG

JPEG wurde von der Joint Photographic Experts Group entwickelt und eignet sich besonders für Farb- und Grauwertbilder. In diesem Bereich ist die JPEG-Kompression auch effektiver als die ITU-Gruppe-4-Kompression.

JPEG kann anhand einiger Parameter unterschiedlich konfiguriert werden. Je nach Einstellung werden dann unterschiedliche Kompressionsraten erreicht. Allerdings können auch Verluste auftreten.

Wichtige Merkmale von JPEG sind:

  • Alle gängigen Graphik- und Präsentationsprogramme unterstützen das Format JPEG.
  • Die Konvertierung in JPEG ist in einigen Kompressionsstufen verlustbehaftet, es können dann zugunsten einer geringen Dateigröße wesentliche Bildinformationen verloren gehen.

JPEG ist als Format für die Langzeitarchivierung von Bildern und Bildrepräsentationen von Dokumenten geeignet. Für eine revisionssichere Archivierung wird empfohlen, bei der Auswahl der Kompressionsstufe eine verlustfreie Kompression zu wählen.

C. Audio- und Video-Formate

Bei der digitalen Verarbeitung von Audio- und Videodaten entstehen schon bei zeitlich kurzen Aufzeichnungen sehr große Datenmengen. Daher gewinnt eine effektive Kompression an Bedeutung.

Verlustfreie Kompressionsverfahren für Audio- und Videodaten erreichen derzeit jedoch nur Kompressionsraten von etwa 2:1. Gebräuchlicher sind Verfahren, die eine Kompressionsrate bis zu 200:1 erreichen, jedoch nicht verlustfrei arbeiten. Der durch die Kompression entstehende, teilweise erhebliche Datenverlust wird typischerweise in Kauf genommen, solange er mit dem menschlichen Auge bzw. Ohr nicht wahrnehmbar ist bzw. nicht als störend empfunden wird.

Die Eignung verlustbehafteter Kompressionsverfahren für die Archivierung von Video- und Tonmaterial ist anwendungsspezifisch zu prüfen.

Im Folgenden werden einige typische Formate vorgestellt:

MPEG

Innerhalb der ISO ist die Motion Pictures Expert Group (MPEG) für die Bearbeitung weltweiter Standards zur Kompression digitalisierter Bewegtbilder verantwortlich.

Derzeit sind drei verschiedene Verfahren bekannt:

  • MPEG1: Dieses Format gibt es in drei verschiedenen Layern. Layer 3 ist in der Kurzform MP3 bekannt und als Kompression für Audiodaten verbreitet.
  • MPEG2: Dieses Format ist derzeit für die Speicherung von Videodaten auf DVD in Gebrauch und als Standard akzeptiert.
  • MPEG4: Dieses Format befindet sich noch in der Entwicklung und ist noch nicht abschließend standardisiert.

ITU H.261

Im Jahr 1990 wurde der Standard H.261 von der ITU zur Kodierung von Videosignalen verabschiedet. Die Kodierung nach H.261 ist für die Übertragung auf ISDN -Kanälen optimiert und entwickelt worden.

ITU H.263

Der ITU-Standard H.263 ist eine Weiterentwicklung des Standards H.261 aus dem Jahr 1995/96. Er ist ursprünglich für Datenraten kleiner als 64 kbit/s entwickelt worden. Dieser Beschränkung existiert heute nicht mehr. Die Bildqualität wurde gegenüber dem Standard H.261 bei deutlich verbesserter Kompression erheblich gesteigert.

Prüffragen:

  • Ermöglicht das gewählte Datenformat eine langfristige und originalgetreue Reproduktion der Archivdaten sowie ausgewählter Merkmale des ursprünglichen Dokumentmediums?

  • Kann die Dokumentstruktur des ausgewählten Datenformats zur Archivierung eindeutig interpretiert und elektronisch verarbeitet werden?

  • Sind die Syntax und Semantik der verwendeten Datenformate für die Archivierung dokumentiert?

  • Wird ein verlustfreies Bild-Kompressionsverfahren für revisionssichere Archivierung verwendet?

Stand: 13. EL Stand 2013

Hinweis zur Verwendung von Cookies

Um unsere Webseite für Sie optimal zu gestalten und fortlaufend verbessern zu können, verwenden wir Cookies. Durch die weitere Nutzung der Webseite stimmen Sie der Verwendung von Cookies zu. Weitere Informationen hierzu erhalten Sie in unserer Datenschutzerklärung.

OK