Concept Stappenplan webarchivering: reacties gevraagd
Beste leden, Hierbij het concept Stappenplan voor de archivering van overheidswebsites. Graag ontvange...
Het Nationaal Archief beheert de Richtlijn archiveren overheidswebsites (zie https://www.nationaalarchief.nl/archiveren/kennisbank/Richtlijn-Archiveren-Overheidswebsites). Naar aanleiding van een knelpunt dat naar voren is gekomen bij het toepassen van de richtlijn willen we een kleine wijziging doorvoeren. Graag horen we of jullie je hierin kunnen vinden. Wij zien vooralsnog geen nadelen aan deze wijziging. Maar we hebben mogelijk wat over het hoofd gezien.
Voorgenomen wijziging:
Eis 4.5.1 (blz 12) aanpassen:
Van: Elk webarchiefbestand moet voldoen aan een versie van de WARC ISO-28500 standaard die tót 3 jaar voor het moment van harvesting geldig is.
Naar: Elk webarchiefbestand moet voldoen aan de standaard WARC NEN-ISO 28500:2009 of een hogere versie.
Met andere woorden: de eis dat altijd een recente versie van de WARC-standaard wordt gebruikt vervalt. In plaats daarvan wordt een minimale versie gevraagd.
Reden voor de wijziging: Er is inmiddels een nieuwe versie van de WARC-standaard (versie 1.1 ISO 28500:2017). Tegen de tijd dat de eerste WARC-bestanden op basis van de richtlijn gevormd gaan worden, vereist de richtlijn dat versie 1.1. van de standaard gevolgd wordt. Hier moeten archiefvormers ook kwaliteitscontroles op (laten) uitvoeren waarvoor validatietools nodig zijn. Er zijn op dit moment nog geen validatietools voor versie 1.1. Ook is niet duidelijk of er al voldoende tools en diensten beschikbaar zijn om WARC-bestanden conform versie 1.1. te maken. Zonder aanpassing van de richtlijn schrijven we dus iets voor waar (nog) niet aan voldaan kan worden.
Reacties
Waarom is het gebruik van het WARC-formaat eigenlijk vereist? Onlangs heb ik nog een studiedag bijgewoond waaruit bleek dat de preservatie van WARC-bestanden toch wel enige issues kent. Het blijft een containerbestand waarbinnen preserveringsacties moeilijk kunnen worden uitgevoerd. De raadpleging blijkt ook al eens problematisch. Zo kan bijvoorbeeld één van de weinig beschikbare raadplegingstools OpenWayback niet overweg met WARC conform versie 1.0 van de ISO norm.
Waarom wordt de optie archiveren naar een HTML-mappenstructuur niet voorzien? Het resultaat hiervan is transparanter (bijv. voor data-analyse), kent minder afhankelijkheden en is daardoor beter geschikt voor langetermijnarchivering. Ik weet dat deze optie niet altijd mogelijk is en dat je soms niet anders kunt dan WARC te gebruiken maar als ik kan kiezen dan archiveer ik bij voorkeur naar een HTML-mappenstructuur.
Willem, terechte vraag waarom het WARC-formaat en niet allemaal losse HTML-bestanden (met natuurlijk alle bijlagen daarbij). De reden is dat de richtlijn aansluit bij wat gangbaar is. En dat is WARC. WARC is een ISO standaard en er zijn kennis, tools en diensten voor beschikbaar. Als je het op een andere manier wilt doen, dan moet iemand dat eerst allemaal zelf ontwikkelen. Dat zie ik nog niet gebeuren. En ik zie het voordeel daar niet van in.
Een HTML-mappenstructuur heeft inderdaad ook voordelen. Je kunt dan metagegevens per webpagina vastleggen en op basis daarvan de pagina's ontsluiten. Bijvoorbeeld voor zoeken op paginaniveau en toegang beperken per pagina. Daar hebben we bij WARC nog geen goede oplossing voor. En inderdaad, preserveren op pagina- en bijlageniveau is dan ook beter mogelijk.
Overigens bevat een WARC-bestand meer informatie dan een HTML-mappenstructuur. Ook het harvestingproces zelf is gedocumenteerd in een WARC-bestand. Dat zouden we natuurlijk als metagegevens kunnen opnemen in een HTML-mappenstructuur. Maar daar moet dan wel een standaard voor bedacht worden.
En ik vermoed dat veel beheerders van e-depots niet blij worden van een HTML-mappenstructuur als archief. Dan krijgen ze er namelijk heel veel te beheren objecten bij. Ik weet niet of hun processen en systemen daar al goed mee overweg kunnen.
Bedankt voor je reactie Erik. Ik hoop vooral dat er ook tools komen voor het converteren van WARC naar HTML en vice versa. Momenteel lijkt daar nog geen adequate tooling voor te bestaan. Hoewel WARC een ISO-norm is blijf ik achterdochtig. Er blijft een sterke verwevenheid met de Internet Archive en hun tools. Als containerformaat is het reconstructieproces ook complexer dan bij een platgeklopte offline kopie in HTML. Aan de andere kant is het feit dat het een ISO-norm is en door zeer veel webarchiveringsinitiatieven wordt gebruikt een element dat voor het WARC-formaat pleit en de verwachting in zich draagt dat ondersteuning op termijn verzekerd zal blijven en allicht verbeteren.
Mijn vorige werkgever heeft reeds meer dan 10 jaar ervaring met archivering van websites naar HTML-mappenstructuren en het opnemen ervan in hun digitaal depot. Dat lijkt tot heden goed te lopen. Ok, je krijgt geen mooie tijdlijnen e.d. maar het materiaal is er, is gedocumenteerd en kan online worden gedownload en vervolgens lokaal geraadpleegd. Zie https://felixarchief.antwerpen.be/archievenoverzicht/237.
Op mijn huidige job, Universiteitsarchief Antwerpen, werken we ook voornamelijk met snapshots naar HTML. Hiervoor gebruiken we HTTrack. Om problemen met padlengtes en speciale lettertekens te vermijden gebruiken we daarbij de HTTrack-optie om de bestandsnamen te conformeren aan ISO9660 en DOS 8+3 regels. Enkel voor zaken die we niet goed meekrijgen maken gebruiken we webrecorder.io met als output WARC. Issues naar opname in ons digitaal depot hebben we nog niet omdat dat voorlopig nog niet veel meer is dan fileserver.
Ik ben benieuwd wat de ervaringen en inzichten van anderen zijn mbt archiveren van websites als losse HTML-bestanden. Het zal toch niet voor niks zijn dat WARC veel gebruikt wordt en een ISO-standaard is geworden.
Het Nationaal Archief heeft besloten de hierboven beschreven wijziging niet door te voeren. De Richtlijn archiveren overheidswebsites blijft daarmee ongewijzigd.
De reden om van de wijziging af te zien is de reacties die we hebben ontvangen vanuit de doelgroep van de richtlijn (overheidsorganisaties die websites beheren). Hieruit bleek dat er geen behoefte is aan de wijziging, maar juist wel enkele bezwaren. Het bezwaar was dat de richtlijn met de voorgenomen wijziging altijd ruimte zou geven aan een opdrachtnemer die de richtlijn moet implementeren (zoals een leverancier van een webarchiveringsdienst) om een verouderde WARC-versie te gebruiken. Ook als gebruik van een nieuwere versie wel mogelijk is.
Merk hierbij op dat de richtlijn een norm is, geen wet. Er kunnen altijd omstandigheden zijn dat het toch niet mogelijk is om een recente versie van de WARC-standaard te implementeren. De opdrachtgever van het implementeren van de richtlijn kan er dan voor kiezen om hierin af te wijken van de richtlijn. Maar een opdrachtnemer die door zijn opdrachtgever gehouden is aan de richtlijn kan hierin niet eenzijdig afwijken.