Privatkopien von Webseiten mit WebScrapBook (Installation und Import unter Windows)

In meinem viel gelesenen Leitfaden zum Archivieren von Webseiten hatte ich das Firefoxplugin ScrapBook X zum Anfertigen von Privatkopien auf dem heimischen Rechner empfohlen. Das ging immer nur mit Firefox und seit geraumer Zeit nur noch mit dessen Fork Palemoon, weil das Mutterprogramm die XUL-Schnittstelle abgestellt hatte. Der Nachfolger WebscrapBook desselben Entwicklers (Danny Lin) steckte damals noch ziemlich in den Kinderschuhen und hatte vor allem keine Suchfunktion. Mittlerweile ist es aber ein ausgewachsenes Stück Software, und es wird höchste Zeit, zu wechseln (Installation, Import). Der größte Vorteil dabei ist, daß es nicht nur in Firefox funktioniert, sondern auch in Chrome und anderen Derivaten der Codebasis Chromium wie Opera und die letzten Versionen von MS Edge.

Der Grund, warum sich ScrapBook X nicht einfach an eine neue Schnittstelle anpassen ließ, lag auch darin, daß es aus Sicherheitsgründen Einschränkungen bei den Schreibrechten der Browser gibt. Während man bei ScrapBook X den Ort des Archivverzeichnisses völlig frei wählen konnte, ist bei WebScrapBook nur noch der standardmäßige Downloadordner möglich. Das ist z. B. auf neueren Notebooks u. U. ein Problem. Diese sind ja normalerweise so eingerichtet, daß das Betriebssystem mit den Benutzerkonten auf einer kleinen, teuren SSD liegt, damit es sehr schnell bootet. Für große Datenmengen ist dann eine wesentlich langsamere Festplatte verbaut. Leider wachsen die Daten eines Scrapbook-Archives sehr schnell an, weil die gemeinsam genutzten Ressourcen einer Webpräsenz für jede Archivkopie neu gesichert werden müssen; bei mir sind es > 11 GB nach einigen Jahren Gebrauch. Hier muß man sich schon überlegen, ob man für nur selten genutzte Archive mit größeren Datenmengen die kostbare SSD-Kapazität verbrauchen will. Deshalb gibt es ein Workaround. Man kann ein Programm installieren, daß es erlaubt, jeden beliebigen Ordner als Wurzelordner eines Webservers zu benutzen. Ist dieses Programm für den WebscrapBook-Ordner aktiv, kann man dorthin speichern. Das werden wir in dieser Anleitung tun. Zudem werden wir das ScrapBook X-Archiv in das WebscrapBook-Verzeichnis importieren.

Zunächst installieren wir das Browseraddon für Firefox oder Chrome. Wie gesagt, funktioniert die Chromeversion in anderen Chromiumbasierten Browsern wie Opera, Vivaldi oder neuerdings MS Edge. Letzteres wurde bei mir allerdings nicht mit den automatischen Windowsupdates ausgeliefert. Falls sie noch einen älteren Edge haben, müssen Sie erst die neue Chromiumversion herunterladen und installieren. In Opera muß erst die Erweiterung „Install Chrome Extensions“ installiert werden.

Privatkopien von Webseiten mit WebScrapBook (Installation und Import unter Windows) 1 — Ablauf der Installation des Backend-Servers von WebScrapBook

Dann installieren wir den Webserver. Wenn Sie damit einverstanden sind, ihr Archivverzeichnis im Downloadordner unterzubringen, können Sie das überspringen. Der Server ist in Python geschrieben, was auf Windows normalerweise nicht vorhanden ist. So auch bei mir, denn Python ist nicht in meinem Portfolio. Deshalb laden wir die jüngste Version herunter. Bei mir hat die Installation für alle Nutzer nicht geklappt, aber für das jeweilige Benutzerkonto reicht auch. Aktivieren Sie die Option, Python in der PATH-Variablen zu setzen. Öffnen sie die Powershell (Rechtsklick auf das Windowssymbol links unten), um Kommandozeilenbefehle einzugeben. Danach sollte

python --version

die Versionsnummer zurückliefern, ebenso

pip --version

Dann installieren sie den Webserver mit

python -m pip install -U webscrapbook

Jetzt müssen Sie das Verzeichnis anlegen, in dem die Archivkopien gesammelt werden. Bei mir ist das C:\Users\Work\Documents\ingram\wsb, aber es kann auch jedes andere sein, in dem Sie Schreibberechtigung haben. Wechseln sie auf der Shell in das Verzeichnis:

cd D:\Pfad\zu\WebScrapBook

Falls Sie statt der Powershell die alte DOS-Shell benutzen und das Laufwerk wechseln wollen, müssen erst D: eingeben. Auf der Powershell ist das nicht nötig. Dann führen Sie

wsb config -ba

um die Konfigurationsdateien für den Webserver zu erstellen. Mit

wsb serve

starten Sie den Server. Jetzt sollte eine Seite mit der Adresse http://localhost:8080 aufpoppen, die den Inhalt Ihres Archivverzeichnisses zeigt, also bisher nur das Konfigurationsverzeichnis.

Als nächstes muß das Browseraddon konfiguriert werden. Dies hat sich als kleines, hellblaues Icon in der Adreßzeile des Browsers ausgebreitet. Wählen Sie in dem Menü Options. Dort müssen die insbesondere beim Backend-Server die eben genannte URL angeben. Auch die Dateierweiterungen für automatische Downloads beim Archivieren lohnt sich, anzusehen. Out of box sind die alle auskommentiert. Entfernen sie das Doppelkreuz vor denjenigen Erweiterungen, die immer mitgespeichert werden sollen und fügen sie welche hinzu, falls Sie spezielle Interessen haben (Schachspieler z. B. pgn, cbv).

Privatkopien von Webseiten mit WebScrapBook (Installation und Import unter Windows) 2 — Das Menü von WebScrapBook im Browser

Jetzt ist WebScrapBook einsatzbereit, und wir können die ScrapBook X-Daten importieren. Damit übernehmen wir auch die gewohnte Ordnerstruktur in WebScrapBook. Gehen Sie zu ihrem ScrapBook X-Ordner (also dort, wo das data-Verzeichnis und die Datei scrapbook.rdf liegen) und kopieren Sie dessen Inhalt in Ihr WebscrapBook-Verzeichnis. Jetzt wählen Sie im Menü des Browsers Generate Site Index und drücken in der dann geladenen Seite den Button, der auf Sie zutrifft (bei uns also Backend-Server). Jetzt erstellt WebScrapBook einen neuen Index über das Archiv, was je nach Größe des Datensatzes eine ganze Weile dauern kann. Wenn Sie jetzt WebScrapBook öffnen (im Browser mit dem Menüeintrag Open Scrapbook), erscheint links eine Sidebar, in der Sie oben eine Exploreransicht ihrer Ordner sehen und darunter eine Auflistung der Seiten darin. Wenn Sie keine Daten importiert haben, sehen Sie nur eine Leiste mit einem Menü und einem Suchfeld. Im Menü können Sie neue Ordner erstellen, die dann auch immer so heißen. Die Umbenennung erfogt durch Rechtsklick auf den Ordner/Metadata/title.

Privatkopien von Webseiten mit WebScrapBook (Installation und Import unter Windows) 3 — Das ScrapBook X-Archiv im neuen Gewand von WebScrapBook

Das Speichern von Seiten oder auch nur einem markierten Teil davon erfolgt wie gewohnt durch einen Rechtsklick auf die Seite. Dann erscheint ein Kontextmenü, in dem es einen Eintrag WebScrapBook gibt, der zu den Speicheroptionen führt.

Zu guter Letzt noch ein Hinweis. WebscrapBook mit Backend-Server funktioniert nur, wenn dieser auch gestartet ist. Das kann automatisch geschehen. Legen Sie sich eine Batch-Datei mit der Endung .bat an. Darin sollten die Befehle für den Start des Servers wie oben stehen:

cd C:\Pfad\zu\WebScrapBook
wsb serve

Gegebenfalls muß wieder zuerst der Laufwerksbuchstabe gewechselt werden. Jetzt rechtsklicken Sie auf die Datei und wählen Verknüpfung erstellen. Drücken Sie jetzt Windows + R (oder Rechtsklick auf das Windows-Symbol und Ausführen) und geben Sie in das aufpoppende Feld shell:startup ein. In dem sich dann öffnenden Ordner verschieben Sie die Verknüpfung. Jetzt wird der Backend-Server bei jedem Start des Benutzerkontos automatisch gestartet.

Categories:CultureSoftware

Tags:Archiv Browser Chrome Firefox MS Edge Opera Python ScrapBook X Vivaldi (Browser)WebScrapBook Windows

Ingram Braun

Archaeologist, web developer, proofreader

Matthias says:
August 23, 2020 at 10:46
Hallo
Ähmm, die Rede ist von einem Webserver, der installiert werden muß.
Aber was für ein Programm soll das sein. Es ist kein Link im Text vorhanden.
Beste Grüße, Matthias
Reply
- Ingram Braun says:
  August 23, 2020 at 19:15
  Das Python-Programm WebScrapBook ist der Webserver und lauscht out of box auf dem Port 8080. Kann man auch neben anderen Webservern verwenden. Bei mir ist immer auch gleichzeitig eine XAMPP-Installation aktiv.
  Reply
Achim says:
April 18, 2021 at 10:15
Habe noch immer einen Internetexplorer auf dem Rechner, weil ich seit Jahren einen Ersatz für Webrecherche von Macropool suche. Meine seinerzeit sehr fortschrittliche Denke möglichst papierlos zu arbeiten, wird mir vermutlich in den nächsten Monaten zum Verhängnis. Nachdem Mozilla ihre Schnittstelle zu Webrecherche gekappt hat, meckert Microsoft jetzt ständig ich solle mich doch vom Internetexplorer endgültig verabschieden. Habe fast mein ganzes Leben auf Webrecherche organisiert. Die Alternativen die ich bisher gefunden habe kommen nicht annähernd an Webrecherche heran. Von einer Möglichkeit meine bereits gespeicherten Seiten und angelegten Dokumente in ein anderes Programm zu übernehmen ganz zu schweigen. Schade dass es keine Entwickler mehr gibt die Anwender bedienen, die lieber an einem großen und Übersichtlichen Bildschirm arbeiten als sich mühselig durch eine App auf dem Smartphone zu scrollen. Doch genug gejammert und zurück zum meinem Problem.
Kann ich mir mit WebScrapBook eine ähnlich übersichtliche Wiki aufbauen wie mit Webrecherche?
oder gibt es eine bessere Lösung, bei der ich eventuell sogar meine Daten aus der Werecherche übernehmen kann?
Zum Personen des ehemaligen Unternehmen Macropool führt ich leider nicht die kleinste Spur.
Bedanke mich ganz herzlich!
Reply
- Ingram Braun says:
  April 18, 2021 at 12:23
  Web-Recherche ist mir neu. Die Webseite gibt es noch, aber die letzte Version stammt von 2013. Wenn die Firma nicht selbst eine Exportfunktion bereitstellt, steht man wahrscheinlich dumm da. Es läßt sich ohne konkrete Kenntnis kaum sagen, ob man die Daten konvertieren kann. Es gibt ja Exportfunktionen, und möglicherweise kann man zumindest die Webseitendaten über die Linkliste anderswo einlesen. Aber die Metadaten (z. B. Original-URL)? Wenn die Daten in einem lesbaren Format vorliegen, kann man sich vielleicht ein Skript basteln, WSB ist ja quelloffen. Auch mit WSB kann man sich Ordnerstrukturen anlegen. Ich selbst benutze fast nur die Volltextsuche (alleine schon wegen der schieren Menge).
  Eine Alternative wäre halt der webbasierte Literaturmanager Zotero, der auch über eine Snapshotfunktion mit Ordnerhierarchie verfügt. Da er international im akademischen Betrieb weit verbreitet ist, dürfte hier die Zukunftssicherheit vergleichsweise sehr hoch sein.
  Mit Smartphonen hat das alles nichts zu tun, denn diese Programme werden hauptsächlich von Bürorechnern aus benutzt.
  Reply
Volker Drewes says:
March 12, 2023 at 17:13
Hallo Ingram
ich habe Webscrapbook und den Server installiert. Leider habe ich beim Öffnen des Menüs im Browser (Firefox) nicht die Optin “Generate Side Index) zur Verfügung. Ich hatte vorher den Inhalt des alten Srapbooks in den neuen Ordner hineinkopiert, so wie beschrieben. Die Tabs im neuen Ordner werden leider nicht angezeigt. Haben Sie vielleicht eine Idee dazu?
Reply
- Ingram Braun says:
  March 12, 2023 at 21:08
  Das wird jetzt offenbar über die Kommandozeile gemacht: https://github.com/danny0838/webscrapbook/wiki/Diffs#compatibility
  Reply
Volker Drewes says:
March 14, 2023 at 12:40
Vielen Dank Ingram, das werde ich berücksichtigen. Sorry habe aber jetzt ein anderes Problem. Nach korrekter Installation von Python und Pfadangabe bekomme ich beim Aufrufen von “wsb” die Fehlermeldung: “wsb : die Benennung “wsb” wude nicht als Name eines Cmdlet, einer Funktion … erkannt”. Hast du eine Idee?
Reply
- Ingram Braun says:
  March 16, 2023 at 12:19
  Auf Windows könnte das ein Rechteproblem sein. Hatte ich früher mal mit Python (das ich sonst kaum brauche) auch. Ggf. muß Python lokal für das Benutzerkonto installiert sein. Es kommt letztlich darauf an, daß das Verzeichnis, in dem sich die *.exe von Python befindet, in der Umgebungsvariable ‘Path’ vrzeichnet ist. Die gibt es global (für alle Nutzer) und für jedes Benutzerkonto einzeln. Man kann das prüfen, indem man die Versionsnummern für die Komponenten abfragt:
  python -V
  pip -V
  wsb --version
  Dann weiß man zumindest, auf welcher Ebene der Fehler liegt. Man findet die Umgebungsvariablen, indem man das Wort in das Suchfenster in der Taskleiste eingibt. Bei mir sind in der Systemumgebungsvariable ‘Path’ die Pfade
  C:\Program Files\Python39\Scripts\
  und
  C:\Program Files\Python39\
  eingetragen, was Python systemweit zur Verfügung stellt. Wenn nur wsb nicht funktioniert, ist offenbar der Serverstart fehlgeschlagen.
  Reply

Share

Related Posts

Für Webmaster: Langzeitarchivierung in der Deutschen Nationalbibliothek

Deaktivieren der Paßwortspeicherung in verschiedenen Browsern

Liste der Webbrowser für Windows

Using both prefetch and prerender on the same source

archive.pl v2.3 released

Nachrichtenarchiv

8 Responses

Leave a Reply Cancel reply