Bevorzugte Dateiformate im digitalen Langzeitarchiv der ZBW

Das Team Langzeitarchivierung der ZBW hat generell keinen Einfluss darauf, in welchen Dateiformaten die zu archivierenden Inhalte akquiriert und zur Verfügung gestellt werden. Die erste Priorität beim Bestandsaufbau hat stets die Akquise der Inhalte. Der Erwerb der Objekte in Formaten, die für die Langzeitverfügbarkeit besonders geeignet sind, spielt nur eine nachgeordnete Rolle.

Lediglich sofern die ZBW die Daten selber produziert – wie im Falle der Retrodigitalisierung – kann das Team Langzeitarchivierung Empfehlungen zu Dateiformaten aussprechen. In solchen Fällen gelten folgende Richtlinien für Dateiformate:

  • normiert und standardisiert (z. B. durch eine ISO-Norm)
  • nicht von einem einzigen/ einigen wenigen Programmen abhängig
  • (vorzugsweise weltweit) verbreitet mit hohem Nutzungsgrad
  • offenes oder offen gelegtes Format

Die Entscheidung zur Langzeitarchivierung fällt aus inhaltlichen Gründen [1]. Die Inhalte werden prinzipiell stets zunächst in ihrem Ursprungsformat im digitalen Langzeitarchiv gespeichert. Sofern für die Inhalte ein für die Langzeitverfügbarkeit gut geeignetes Zielformat bekannt ist, erfolgt im Rahmen des Preservation Planning [2] die Erstellung einer weiteren Repräsentation in diesem Format. Außerdem sind die für die Langzeitarchivierung Verantwortlichen stets aktiv bestrebt, für einen möglichst hohen Anteil der archivierten Inhalte Dateiformate zu finden, die für die Langzeitverfügbarkeit weniger Risiken bergen.

Textbasierte Inhalte

Ein Beispiel für ein Dateiformat, das diese Richtlinien erfüllt ist das PDF-Format. Seit dem 1.07.2008 ist es ISO-normiert (32000-1:2008) und ein offener Standard. Es gibt zahlreiche Programme, die den Zugriff oder die Bearbeitung von PDF-Dateien unterstützen, viele hiervon ebenfalls nicht proprietär. Das PDF-Format wurde 1993 erstmalig veröffentlich und ist weltweit sehr weit verbreitet. Darüber hinaus gibt es die PDF/A-Spezifikation (ISO 19005-1:2005), die die Langzeitverfügbarkeit von Inhalten besonders unterstützt.

Ein Großteil der digitalen Inhalte der ZBW wird über den Open-Access-Server EconStor akquiriert. Die Leitlinien des Open-Access-Server EconStor sehen vor, dass Inhalte ausschließlich im PDF-Format eingereicht werden [3]. Die Entscheidung für das Dateiformat PDF für textbasierte Inhalte ist konform mit dem bevorzugten Dateiformat, in dem digitale Inhalte den Nutzer:innen der ZBW zur Verfügung gestellt werden.

Das PDF-Format ist nicht für jeden möglichen digitalen Inhalt geeignet und fokussiert auf eher textbasierte Inhalte. Für einfachere Inhalte wie Bilder sind weniger komplexe Dateiformate (wie TIFF und JPEG/JPEG2000) empfehlenswert.

Digitalisate und Bilddaten

Bilddateien ohne Textinhalte, für die eine Volltextdurchsuchbarkeit entweder nicht notwendig ist oder aufgrund der Qualität oder Art der Schrift nicht ermöglicht werden kann, werden in der Regel als Bilddateien gespeichert. Bevorzugtes Dateiformat ist das TIFF-Format. Das Tagged Image File Format (TIFF) ist ein offener Standard, der seit 1992 stabil ist. Die Verbreitung ist hoch. Da es jedoch viele TIFF-Dateien gibt, die dem Standard nicht entsprechen, ist hier die Dateiformatvalidierung von besonderer Wichtigkeit [2].

AV-Medien

AV-Medien und ausführbare Inhalte stehen zurzeit nicht im Fokus des Archivs und spielen im Bestand der ZBW eine sehr untergeordnete Rolle. Daher wurden hier noch keine bevorzugten Dateiformate definiert.

Ausblick

Die Erfahrung mit verschiedenen Dateiformaten wächst stetig und es ist ein Ziel der digitalen Langzeitarchivierung der ZBW, die Quantität der verschiedenen archivierten Dateiformate stets in einem übersichtlichen Maß zu halten und gut zu verwalten, um der Veraltung entgegenzuwirken.

Dateiformate, die heute als bevorzugt zur Sicherung der Langzeitverfügbarkeit eingesetzt werden, können bereits in naher Zukunft veraltet sein. Aus diesem Grund wird dieser Text mindestens jährlich hinsichtlich seiner Aktualität geprüft.