Technologische ontwikkelingen in de gaten houden is voor digital preservationado’s vaste kost. Als onderdeel van de Preservation Watch van het Nationaal Archief (NA) voerde ik, samen met Jacob Takema, een kort onderzoekje uit naar het ‘nieuwe’ formaat voor het archiveren van websites: WACZ. Hieronder vind je de voornaamste bevindingen.
Nieuw formaat?
Begin 2021 kondigde het Webrecorder project het ‘WACZ format 1.0’ aan (1), een nieuw bestandsformaat voor het opslaan van webarchieven. Binnen de wereld van webarchivering spelen het Webrecorder project en de hierin ontwikkelde open source tools en applicaties een grote rol. Een voorbeeld hiervan is de PyWB viewer (2), ook in gebruik bij het NA voor het aanbieden van gearchiveerde websites aan gebruikers. Op dit moment leest en toont deze applicatie alleen WARC en (legacy) ARC bestanden, maar Webrecorder heeft aangekondigd dat PyWB in de aankomende 3.0 versie WACZ zal gaan ondersteunen (3). Ook komen we dit formaat steeds vaker tegen op (voorkeurs)bestandsformaatlijsten van andere archieven. De bekendheid en het mogelijk gebruik van het formaat lijkt hiermee te groeien.
Wat is WACZ?
Definitie en specificatie
WACZ staat voor Web Archive Collection Zipped. Dit zegt al veel over de inhoud; het gaat om een collectie webarchieven, verpakt in een zip container. In de specificatie wordt WACZ beschreven als:
“(…) a media type that allows web archive collections to be packaged and shared on the web as a discrete file. A WACZ file includes all the data that is needed for the rendering archived content as well as contextual information required for users to interpret it. Rendering software can obtain this data on demand using HTTP Range requests, without requiring the entire file to be fully retrieved, or for it to be otherwise mediated by specialized server side software.” (4)
Belangrijk hierin is de nadruk op delen en tonen (renderen).
Een WACZ object bestaat uit de volgende onderdelen:
Een datapackage.json bestand voor het vastleggen van technische en beschrijvende metadata in een Frictionless Data Package.
Een uitbreidbare mappenstructuur en naamgevingsconventie voor web archief data.
Een methode voor bundelen van een mappenstructuur in een ZIP bestand.
Fig. 1: WACZ mappen structuur
Nadruk op client-gebruik versus server infrastructuur
Het hosten van webarchieven vraagt op dit moment een complexe serverinfrastructuur om WARC data op zo’n manier te verwerken dat het in een browser getoond kan worden. Het NA heeft al een dergelijke infrastructuur, met de voorgenoemde PyWB. Het WACZ-formaat biedt een opslagmethode die geoptimaliseerd is om WARC-data makkelijk te kunnen tonen in browsers zonder dat een dergelijke infrastructuur nodig is. Het zorgt ervoor dat de data op zo’n manier verpakt is dat een browser deze kan renderen door alleen dat op te roepen uit het verpakte bestand wat nodig is voor de specifieke pagina die wordt opgeroepen. Hierbij wordt gebruik gemaakt van de ingebouwde index die bij de ZIP-container is ingesloten. Deze wordt ingezet voor het lokaliseren van de inhoud van de webarchieven en bijbehorende metadata (5).
Is WACZ een archiveringsformaat?
De ontwikkelaars van het formaat geven in de specificatie aan dat “WACZ is not designed to replace other web archiving formats. Rather it establishes a file packaging convention for all the data needed by a browser for efficient rendering of a web archive collection, and its contextualization.” Hiermee benoemen ze het dus eigenlijk tot een verpakkingsconventie die het renderen van webarchieven door een losstaande browser vergemakkelijkt, niet specifiek een bestandsformaat voor langdurige opslag.
Criteria en score
Hierdoor kwamen wij tot het inzicht dat WACZ lastig te beoordelen is als een bestandsformaat voor archivering. Dat gaat voorbij aan het doel van het formaat. Het verpakt onder meer WARC.gz en .json bestanden in een ZIP op een gestandaardiseerde manier. WACZ leunt daardoor op een aantal bestandsformaten en bijbehorende specificaties zoals ZIP, WARC, GZIP, json (datapackage) (6) en CDX. Daardoor is het niet één op één te vergelijken met WARC en de huidige good practice om WARC bestanden ‘los’ op te slaan, al dan niet ingepakt met archiefmetadata (in een ‘MDTO SIP’ of AIP). Zeker voor het NA, waar de benodigde infrastructuur al gebouwd is, heeft aanlevering in WACZ waarschijnlijk geen toegevoegde waarde.
Dat we WACZ zien als een verpakkingsconventie zorgt er ook voor dat we het niet goed kunnen scoren op de NARA file format risk matrix. Dit betekent overigens niet dat WACZ geen rol kan spelen bij het duurzaam toegankelijk opslaan van webarchieven. Het zal eerder een aanvullende rol spelen om in een bepaalde context toegepast te worden dan dat het bestaande webarchiveringsformaten vervangt.
Samenvatting en conclusies
Onze eerste ingeving was om WACZ te vergelijken met WARC, maar bij nadere inspectie bleek dat geen goede vergelijking. Uit de specificatie van WACZ blijkt dat het bedoeld is als verpakkingsconventie voor het tonen en delen van webarchiefbestanden, terwijl WARC dient als webarchiveringsconventie. Een WACZ bevat dan ook WARC(.gz) bestanden en bundelt de WARC bestanden en extra informatie in één ZIP container.
Een WACZ bestand bestaat uit WARC bestand(en) met extra informatie erbij opgeslagen en ingepakt in een ZIP bestand. Daardoor is het mogelijk om efficiënt webarchieven te harvesten én te tonen vanuit een applicatie in de browser, bijvoorbeeld met een plug-in. Dit betekent dat er op een client gewerkt kan worden en er geen aparte server hoeft worden opgezet om webarchieven te harvesten (bv. Met Heritrix) of te tonen (bv. met de Wayback Machine). Als een organisatie al beschikt over deze (vaak) complexere server infrastructuur dan kan het minder evident zijn om WACZ te gebruiken.
WACZ vinden jullie?
Op basis van dit onderzoekje kwamen we tot de conclusie dat WACZ voor het Nationaal Archief (nog) geen toegevoegde waarde heeft als archiveringsformaat en zelfs wat extra (maar niet veel) werk vraagt. Wel zijn wij benieuwd welke andere instellingen ervaring hebben met het creëren, beheren, uitwisselen of archiveren in dit formaat. Werken jullie wel met WACZ, en zo ja, wat zijn jullie ervaringen en bevindingen? Wij horen het graag! Laat hieronder een berichtje achter of stuur een e-mail aan dit e-mailadres.
Voetnoten
Kreymer, Ilya and Emma Dickson. “Announcing WACZ Format 1.0”. Webrecorder (blog). January 18, 2021. https://webrecorder.net/2021/01/18/wacz-format-1-0.html.
“Webrecorder/pywb”. Github, last modified May 19, 2023, https://github.com/webrecorder/pywb.
Kreymer, Ilya and Tessa Walsh. “Announcing pywb 2.7.0 release”. Webrecorder (blog). https://webrecorder.net/2022/11/23/pywb-2.7.html.
Kreymer, Ilya and Ed Summers. “Web Archive Collection Zipped (WACZ)”. Webrecorder. https://specs.webrecorder.net/wacz/1.1.1/.
Idem.
Walsh, Paul and Rufus Pollock. “Data Package”. Fractionless Standards. Last modified May 2, 2017, https://specs.frictionlessdata.io/data-package/#language
Reacties
Een wat late reactie, maar zou ik samengevat kunnen zeggen dat een WACZ-bestand een goede DIP is (om in OAIS- terminologie te blijven) om in een browser gebruiken?