Für Webmaster: Langzeitarchivierung in der Deutschen Nationalbibliothek

()

Einführung

Webseiten sind unter anderem auch Kulturgüter, um deren Erhaltung man sich Sorgen machen muß. Ich arbeite zur Zeit an einer Webliographie von Online-Schachmagazinen und erlebe dabei immer wieder, daß Objekte, die ich vor Jahren einmal gespeichert hatte, im Netz heute nicht mehr auffindbar sind. Dabei handelt es sich oft um Vereinszeitschriften, die als Printexemplare in wissenschaftlichen Bibliotheken mit entsprechendem Regionalica-Sammelgebiet oder in Schachparaphernaliensammlungen durchaus sammelwürdig wären, da sie für lokal- oder fachgeschichtliche Zwecke einmal bedeutsam werden könnten. Der sicherlich bekannteste Versuch, die Langzeitarchivierung von Webseiten zu gewährleisten, ist das Internet Archive. Aber auch viele Nationalbibliotheken, deren Aufgabe die Archivierung der einheimischen Literaturproduktion ist, unterhalten Langzeitarchivierungsprogramme für die jeweils national relevanten Teile des Internets. So auch die Deutsche Nationalbibliothek (DNB). Dort kann sich im Grunde jeder deutsche Webseitenbetreiber anmelden. Davon handelt mein Erfahrungsbericht.

Inhaltsverzeichnis

Grundsätzliche Probleme

Die Langzeitarchivierung von elektronischen Dokumenten stößt sowohl auf technische wie auf juristische Probleme. Das Internet Archive grast mit einem Bot genauso wie Google das Internet ab und speichert die Webseiten in einem speziellen Archivformat (WARC), das die eingebetteten Quellen (JavaScript, CSS, Mediendateien) und weitere Informationen (z. B. HTTP-Header) enthält, damit Dokumente, die aus mehreren Dateien bestehen, lokal wieder hergestellt werden können. In den USA, wo das Internet Archive mittlerweile den Status einer öffentlichen Bibliothek hat, geht es urheberrechtlich offenbar sogar, eine öffentliche Suchfunktion bereit zu stellen. Gesucht werden kann allerdings nur nach dem URL. Man muß also mindestens den genauen Domainnamen kennen. Wenn man nicht archiviert werden möchte, kann man den Bot wie üblich per robots.txt aussperren:

User-agent: ia_archiver Disallow: /

Eine Besonderheit hierbei ist, daß nicht nur zukünftig nicht mehr gecrawlt wird, sondern auch ältere Kopien entfernt werden. Das ist nötig, um illegale Inhalte beseitigen zu können. Es ließe sich bei aufgelassenen Domains aber auch dazu mißbrauchen, fremde Inhalte zu löschen – z. B. um Plagiate zu verschleiern oder die Werke mißliebiger Personen zu vernichten.

Technisch kann die spätere Zurverfügungstellung der Daten als Emulation alter Umgebungen oder Migration in neuere Formate geschehen. Da die heute gebräuchlichen Standards aber so schnell nicht verschwinden werden, muß uns das erstmal nicht interessieren. Sie werden ja im Gegenteil gerade massiv erweitert.

Inhaltsverzeichnis

Registrierung bei der DNB

Unter dem oben genannten Link bei der DNB kommt man auch zu einem Anmeldeformular, wo man sich mit Namen und E-mail anmelden kann. Es werden dann noch einige weitere Informationen abgefragt, unter anderem auch die Webseite. Bei mir lief das so ab, daß ich mich am Wochenende angemeldet hatte. Montag vormittag hatte ich dann einen Besucher aus der DNB auf der Webseite, der sich meine Kritik eines Biologiehandbuches angesehen hat. Das hat offenbar genügt; ein paar Minuten später kam die Freischaltung als Einlieferer.

Natürlich darf man nur Publikationen einliefern, wenn man selbst Rechteinhaber ist oder von diesem dazu autorisiert worden ist. Es gibt aber auch eine gesetzliche Sammelpflicht der DNB. Es ist denkbar, daß síe in Zukunft einmal die Ablieferung von Dokumenten verlangen und im Rahmen von Ordnungswidrigkeitenverfahren durchsetzen kann.

Die DNB verfolgt zwei verschiedene Strategien: abgeschlossene Dokumente wie Bücher und Hochschulschriften werden von den Produzenten (Autoren, Verlage) selbst eingeliefert. Webseiten werden auch mit einem Bot abgesucht.

Inhaltsverzeichnis

PDF und eBooks

Für die Langzeitarchivierung abgeschlossener Dokumente sollten diese im PDF-Format abgefaßt und über eine URL erreichbar sind. Eine Ausnahme gibt es nur für eBooks im Kindle-Format. Da dieses nicht archivierbar, aber für die DNB besonders relevant sind, kann man stattdessen inhaltsgleiche EPUB-Dateien einreichen. Die Annahme von HTML wird verweigert, wie ich durch einen Eingabefehler feststellen konnte. PDF ist aber für die Archivierung durchaus problematisch, weil es z. B. auf externe Schriftarten zugreifen kann. Daher gibt es ein abgespecktes Format namens PDF/A, das eine gut archivierbare Untermenge von PDF darstellt. Wer auf Nummer sicher gehen will, sollte es verwenden. Man kann PDF/A mit LaTeΧ herstellen, allerdings ist die Konfiguration nicht ganz trivial.

Ein heikler Punkt ist die Katalogisierung, also die Verknüpfung des Dokumenteneintrags mit Metadaten. Das ist sehr arbeitsaufwendig, weil es von Menschen entschieden werden muß. Deshalb muß es der Einlieferer selbst machen. Natürlich gibt es dafür ein Formular, in dem die entprechenden Felder vorgegeben sind. Aber als ich meine Trainerhausarbeit mit Schlagworten ausstatten wollte, fehlte das Schlagwort Schach in der Auswahlliste, obwohl es in der Systematik vorhanden ist, so daß ich eine allgemeinere Kategorie angeben mußte.

Es werden nur veröffentlichte Werke angenommen. Es muß also ein URL vorhanden sein. Der Zugriff erfolgt mittels Apache Jakarta – der sollte also nicht gesperrt sein. Es gilt strikt, daß jeder URL nur einmal verwendet werden kann. Wenn sie also z. B. ein Handbuch pflegen, das gelegentlich upgedatet wird, sollten sie URLs mit Versionsnummern verwenden. Man wird auch gefragt, ob das Dokument allgemein zugänglich oder nur in den Räumen der Bibliothek einsehbar sein soll. Natürlich gibt es im Onlinekatalog einen klickbaren Link zur Originaladresse.

Einmal eingegebene Daten kann man nicht ändern. Das gilt übrigens auch für die Postanschrift, deren Ort als Verlagsort in den Katalog übernommen wird. Natürlich könnte man die zuständigen Mitarbeiter anmailen, aber das Fehlen entsprechender Formulare heißt wohl, daß dies unerwünscht ist. Man wird wohl damit leben müssen, daß die Metadatenverknüpfung angesichts der Masse der elektronischen Publikationen nicht das Niveau einer Printbibliothek erreicht. Dafür ist dann halt eine Volltextsuche technisch möglich.

Inhaltsverzeichnis

Webseiten

Das Archivieren von Webseiten hat die DNB an einen Dienstleister ausgelagert. Dabei werden nur ausgesuchte Seiten archiviert. Ich kann das hier relativ kurz machen, denn ich habe viereinhalb Monate nach meiner Anmeldungen keine Aktivitäten in den Serverlogs beobachten können, die ich der DNB zuordnen könnte. Vermutlich handelt es sich also um zwei getrennte Verfahren. Ich will hoffen, daß man den Bot erkennen kann, damit er nicht als unnützer Parasit gesperrt wird.

Inhaltsverzeichnis

Fazit

Sofern man auf seiner Webseite PDFs mit Texten bereit stellt, die nicht nur für den kurzfristigen Gebrauch bestimmt sind, steht einem neben dem Internet Archive also noch eine zweite Möglichkeit der Langzeitarchivierung zur Verfügung. Um noch einmal auf die Vereinszeitschriften zurück zu kommen: Ich bewundere Vereine, die so etwas Arbeitsaufwendiges auf die Beine stellen können. Umso trauriger dann, wenn diese Dokumente im digitalen Nirwana verschwinden, wenn der Webmaster verzieht oder der Club aufgelöst werden muß. Denn diese Quellen können einmal in lokal- oder fachgeschichtlichen Kontexten sehr wertvoll werden. Ich kann deswegen nur dazu ermuntern, alle erreichbaren Möglichkeiten der Langzeitarchivierung zu nutzen.

Inhaltsverzeichnis

Wörter, ≈ Zeichen