Privatkopien von Webseiten mit WebScrapBook (Installation und Import unter Windows)

In meinem viel gelesenen Leitfaden zum Archivieren von Webseiten hatte ich das Firefoxplugin ScrapBook X zum Anfertigen von Privatkopien auf dem heimischen Rechner empfohlen. Das ging immer nur mit Firefox und seit geraumer Zeit nur noch mit dessen Fork Palemoon, weil das Mutterprogramm die XUL-Schnittstelle abgestellt hatte. Der Nachfolger WebscrapBook desselben Entwicklers (Danny Lin) steckte damals noch ziemlich in den Kinderschuhen und hatte vor allem keine Suchfunktion. Mittlerweile ist es aber ein ausgewachsenes Stück Software, und es wird höchste Zeit, zu wechseln (Installation, Import). Der größte Vorteil dabei ist, daß es nicht nur in Firefox funktioniert, sondern auch in Chrome und anderen Derivaten der Codebasis Chromium wie Opera und die letzten Versionen von MS Edge.

Der Grund, warum sich ScrapBook X nicht einfach an eine neue Schnittstelle anpassen ließ, lag auch darin, daß es aus Sicherheitsgründen Einschränkungen bei den Schreibrechten der Browser gibt. Während man bei ScrapBook X den Ort des Archivverzeichnisses völlig frei wählen konnte, ist bei WebScrapBook nur noch der standardmäßige Downloadordner möglich. Das ist z. B. auf neueren Notebooks u. U. ein Problem. Diese sind ja normalerweise so eingerichtet, daß das Betriebssystem mit den Benutzerkonten auf einer kleinen, teuren SSD liegt, damit es sehr schnell bootet. Für große Datenmengen ist dann eine wesentlich langsamere Festplatte verbaut. Leider wachsen die Daten eines Scrapbook-Archives sehr schnell an, weil die gemeinsam genutzten Ressourcen einer Webpräsenz für jede Archivkopie neu gesichert werden müssen; bei mir sind es > 11 GB nach einigen Jahren Gebrauch. Hier muß man sich schon überlegen, ob man für nur selten genutzte Archive mit größeren Datenmengen die kostbare SSD-Kapazität verbrauchen will. Deshalb gibt es ein Workaround. Man kann ein Programm installieren, daß es erlaubt, jeden beliebigen Ordner als Wurzelordner eines Webservers zu benutzen. Ist dieses Programm für den WebscrapBook-Ordner aktiv, kann man dorthin speichern. Das werden wir in dieser Anleitung tun. Zudem werden wir das ScrapBook X-Archiv in das WebscrapBook-Verzeichnis importieren.

Zunächst installieren wir das Browseraddon für Firefox oder Chrome. Wie gesagt, funktioniert die Chromeversion in anderen Chromiumbasierten Browsern wie Opera, Vivaldi oder neuerdings MS Edge. Letzteres wurde bei mir allerdings nicht mit den automatischen Windowsupdates ausgeliefert. Falls sie noch einen älteren Edge haben, müssen Sie erst die neue Chromiumversion herunterladen und installieren. In Opera muß erst die Erweiterung „Install Chrome Extensions“ installiert werden.

Privatkopien von Webseiten mit WebScrapBook (Installation und Import unter Windows) 1
Ablauf der Installation des Backend-Servers von WebScrapBook

Dann installieren wir den Webserver. Wenn Sie damit einverstanden sind, ihr Archivverzeichnis im Downloadordner unterzubringen, können Sie das überspringen. Der Server ist in Python geschrieben, was auf Windows normalerweise nicht vorhanden ist. So auch bei mir, denn Python ist nicht in meinem Portfolio. Deshalb laden wir die jüngste Version herunter. Bei mir hat die Installation für alle Nutzer nicht geklappt, aber für das jeweilige Benutzerkonto reicht auch. Aktivieren Sie die Option, Python in der PATH-Variablen zu setzen. Öffnen sie die Powershell (Rechtsklick auf das Windowssymbol links unten), um Kommandozeilenbefehle einzugeben. Danach sollte

python --version

die Versionsnummer zurückliefern, ebenso

pip --version

Dann installieren sie den Webserver mit

python -m pip install -U webscrapbook

Jetzt müssen Sie das Verzeichnis anlegen, in dem die Archivkopien gesammelt werden. Bei mir ist das C:\Users\Work\Documents\ingram\wsb, aber es kann auch jedes andere sein, in dem Sie Schreibberechtigung haben. Wechseln sie auf der Shell in das Verzeichnis:

cd D:\Pfad\zu\WebScrapBook

Falls Sie statt der Powershell die alte DOS-Shell benutzen und das Laufwerk wechseln wollen, müssen erst D: eingeben. Auf der Powershell ist das nicht nötig. Dann führen Sie

wsb config -ba

um die Konfigurationsdateien für den Webserver zu erstellen. Mit

wsb serve

starten Sie den Server. Jetzt sollte eine Seite mit der Adresse http://localhost:8080 aufpoppen, die den Inhalt Ihres Archivverzeichnisses zeigt, also bisher nur das Konfigurationsverzeichnis.

Als nächstes muß das Browseraddon konfiguriert werden. Dies hat sich als kleines, hellblaues Icon in der Adreßzeile des Browsers ausgebreitet. Wählen Sie in dem Menü Options. Dort müssen die insbesondere beim Backend-Server die eben genannte URL angeben. Auch die Dateierweiterungen für automatische Downloads beim Archivieren lohnt sich, anzusehen. Out of box sind die alle auskommentiert. Entfernen sie das Doppelkreuz vor denjenigen Erweiterungen, die immer mitgespeichert werden sollen und fügen sie welche hinzu, falls Sie spezielle Interessen haben (Schachspieler z. B. pgn, cbv).

Privatkopien von Webseiten mit WebScrapBook (Installation und Import unter Windows) 2
Das Menü von WebScrapBook im Browser

Jetzt ist WebScrapBook einsatzbereit, und wir können die ScrapBook X-Daten importieren. Damit übernehmen wir auch die gewohnte Ordnerstruktur in WebScrapBook. Gehen Sie zu ihrem ScrapBook X-Ordner (also dort, wo das data-Verzeichnis und die Datei scrapbook.rdf liegen) und kopieren Sie dessen Inhalt in Ihr WebscrapBook-Verzeichnis. Jetzt wählen Sie im Menü des Browsers Generate Site Index und drücken in der dann geladenen Seite den Button, der auf Sie zutrifft (bei uns also Backend-Server). Jetzt erstellt WebScrapBook einen neuen Index über das Archiv, was je nach Größe des Datensatzes eine ganze Weile dauern kann. Wenn Sie jetzt WebScrapBook öffnen (im Browser mit dem Menüeintrag Open Scrapbook), erscheint links eine Sidebar, in der Sie oben eine Exploreransicht ihrer Ordner sehen und darunter eine Auflistung der Seiten darin. Wenn Sie keine Daten importiert haben, sehen Sie nur eine Leiste mit einem Menü und einem Suchfeld. Im Menü können Sie neue Ordner erstellen, die dann auch immer so heißen. Die Umbenennung erfogt durch Rechtsklick auf den Ordner/Metadata/title.

Privatkopien von Webseiten mit WebScrapBook (Installation und Import unter Windows) 3
Das ScrapBook X-Archiv im neuen Gewand von WebScrapBook

Das Speichern von Seiten oder auch nur einem markierten Teil davon erfolgt wie gewohnt durch einen Rechtsklick auf die Seite. Dann erscheint ein Kontextmenü, in dem es einen Eintrag WebScrapBook gibt, der zu den Speicheroptionen führt.

Zu guter Letzt noch ein Hinweis. WebscrapBook mit Backend-Server funktioniert nur, wenn dieser auch gestartet ist. Das kann automatisch geschehen. Legen Sie sich eine Batch-Datei mit der Endung .bat an. Darin sollten die Befehle für den Start des Servers wie oben stehen:

cd C:\Pfad\zu\WebScrapBook
wsb serve

Gegebenfalls muß wieder zuerst der Laufwerksbuchstabe gewechselt werden. Jetzt rechtsklicken Sie auf die Datei und wählen Verknüpfung erstellen. Drücken Sie jetzt Windows + R (oder Rechtsklick auf das Windows-Symbol und Ausführen) und geben Sie in das aufpoppende Feld shell:startup ein. In dem sich dann öffnenden Ordner verschieben Sie die Verknüpfung. Jetzt wird der Backend-Server bei jedem Start des Benutzerkontos automatisch gestartet.

Privatkopien von Webseiten mit WebScrapBook (Installation und Import unter Windows) 4

Ingram Braun

Archaeologist, web developer, proofreader

2 Responses

  1. Hallo
    Ähmm, die Rede ist von einem Webserver, der installiert werden muß.
    Aber was für ein Programm soll das sein. Es ist kein Link im Text vorhanden.
    Beste Grüße, Matthias

    • Das Python-Programm WebScrapBook ist der Webserver und lauscht out of box auf dem Port 8080. Kann man auch neben anderen Webservern verwenden. Bei mir ist immer auch gleichzeitig eine XAMPP-Installation aktiv.

Leave a Reply

Your email address will not be published. Required fields are marked *

Post comment