Wat zijn de meest significante significante eigenschappen van soorten informatieobjecten?
Graag wil ik jullie vragen bij te dragen aan 'significante significante eigenschappen' van verschillen...
Het Nationaal Archief werkt aan een informatieblad over WARC-validatie. WARC’s zijn Web ARChive-bestanden waarin je geharveste websites kunt archiveren. Harvesten is het verzamelen en integreren van informatie van het web, zoals een website. We verdiepen ons in WARC-validatie, omdat we op termijn veel (overheids)webarchieven verwachten te ontvangen. Het informatieblad past bij de richtlijn archivering overheidswebsites. Het geeft informatie over hoe je WARC’s kunt valideren, en wat onze bevindingen van het testen van WARC-validatietools waren.
Voor ons informatieblad selecteerden we de tools JHOVE, JWAT, Warcat en Warcio. Er zijn meer WARC-tools, maar naar onze mening zijn de vier tools die wij kozen de meest gangbare, volwassen en actief onderhouden tools die WARC’s kunnen valideren. Een rondvraag bij webarchiverende collega’s bevestigde dit beeld.
Naast het testen van de tools aan de hand van een corpus WARC’s onderzochten we wat de tools precies controleren, en hoe ze zich tot elkaar verhouden. Daarbij viel het ons op, dat hoewel JWAT in JHOVE geïntegreerd is, de output van de tools verschillend was. Bij dezelfde WARC meldde JWAT 110 “WARC-Target-URI”-fouten, en JHOVE 84 “Incorrect payload digest”-fouten.
Dit wilden we graag met Carl Wilson van de Open Preservation Foundation bespreken. De OPF onderhoudt JHOVE. Omdat we lid zijn van de OPF konden we ons inschrijven voor een tech clinic met Carl. Al snel bleek dat versieverschillen tussen JHOVE en JWAT onze verschillen veroorzaken. Wij gebruikten JWAT-warc v1.11 als onderdeel van de JWAT-Tools 0.6.6 en JHOVE 1.22 met JWAT-warc 1.0.3. Daarnaast merkten we dat er nog een paar issues waren met WARC-validatie in JHOVE. Daar openden we issues voor op de Githubpagina van JHOVE. Dankzij de tech clinic weten we weer meer over het ecosysteem van WARC-validatietools.
Bij ons verdere onderzoek naar WARC-validatietools merkten we dat sommige tools daadwerkelijk validatietools zijn, en andere alleen block en/of payload digests controleren. Of ze ondersteunen alleen versie 1.0 (van 2009) en niet ook versie 1.1 (van 2017) van de WARC-standaard ISO 28500.
Hoewel we nog werken aan ons informatieblad, kunnen we al voorzichtig concluderen dat er geen één WARC-validatietool is “to rule them all”. Het inzetten van een combinatie van tools is waarschijnlijk voorlopig de beste strategie. Een extra reden hiervoor is, dat we het gemiddelde volwassenheidsniveau van het ecosysteem van WARC-validatietools nog niet zo hoog vinden. Sommige tools hebben één onderhouder en/of zijn de laatste jaren nauwelijks bijgewerkt.
Tot slot merkten we bij de rondvraag onder webarchiverende collega’s, dat er überhaupt nog niet zo veel gebruik lijkt te worden gemaakt van WARC-validatietools. Misschien zijn we onze tijd vooruit? Of hebben we praktijkvoorbeelden gemist? Laat het ons weten.
Genoemd in dit blog:
Richtlijn archivering overheidswebsites: https://www.nationaalarchief.nl/archiveren/kennisbank/Richtlijn-Archiveren-Overheidswebsites
WARC-standaard: https://www.iso.org/standard/68004.html en https://iipc.github.io/warc-specifications/
JHOVE: https://openpreservation.org/products/jhove en https://github.com/openpreserve/jhove
JWAT: https://sbforge.org/display/JWAT/JWAT en https://github.com/netarchivesuite/jwat
Warcat: https://pypi.org/project/Warcat/ en https://github.com/chfoo/warcat
Warcio: https://pypi.org/project/warcio/ en https://github.com/webrecorder/warcio
Meer WARC-tools: