Vraag: wanneer is een verzameling WARC-files een goed webarchief

  • okt 2017
  • Erik Saaman
  • ·
  • Aangepast 27 jun
  • 5
  • 33
Erik Saaman
Particuliere Websites en SoMe
  • Jeroen van Luin
  • Chido Houbraken

Weet iemand van jullie of er ergens kwaliteitseisen voor webarchieven in de vorm van WARC-files zijn geformuleerd? Daarmee bedoel ik eisen die niet in de WARC-specificatie zelf zijn opgenomen. Maar die wel van belang zijn voor een bruikbaar webarchief. Zoals eisen aan metadatering en volledigheid.

De achtergrond van deze vraag is de volgende. Bij de overheid vindt de wettelijk verplichte archivering van informatie (dus ook websites) in eerste instantie niet door archiefinstellingen plaats, maar door de overheidsorganisaties die 'eigenaar' zijn van die informatie. Pas na een aantal jaren (max 20) worden die archieven overgebracht naar een archiefinstelling (zoals het Nationaal Archief of een regionaal archief). Om te voorkomen dat webarchieven bij overbrenging (deels) onbruikbaar zijn willen we vooraf kwaliteitseisen stellen. Daar zoeken we voorbeelden van.

Mogelijk dat instellingen die zelf webarchiveren voor zichzelf een lijst met kwaliteitseisen hebben opgesteld. Ook daar zijn we in geïnteresseerd. Want daar kunnen we misschien elementen van overnemen.

Alvast bedankt!!!!

Reacties

5 reacties, meest recent: 16 oktober 2017
  • Ha Erik,

    Kan het zijn dat bijv. de set van metadata verschilt per "type" website en dat je dus op basis van het werkproces waar de site toe behoord, moet uitmaken wat de benodigde metadata is?

    Ik kan me voorstellen dat je wel een basislset kan hebben die voor.alle warcs geldt, maar of dat voldoende is voor jouw doel, weet ik niet.

    Verder ben ik benieuwd of de uitkomst kan zijn dat overheidsinstanties warcs dus eerder moeten overbrengen?

    Chido Houbraken
  • We hebben standaarden voor metagegevens (TMLO en TP Rijk). Dus ik ga ervan uit dat die voor elk type werkproces, dus ook elk type site geschikt zijn. Anders moeten we daar eerst iets aan doen.

    Vervroegde overbrenging is inderdaad een onderwerp van discussie. Waarvan we eerst de impact nog moeten onderzoeken. Voor dit moment is het vooral van belang dat webarchieven die nu gemaakt worden na overbrenging nog goed toegankelijk te maken zijn. Daarom zijn we op zoek naar de criteria.

     

    Erik Saaman
  • Ok, het gaat je dus niet om de eisen voor de warc-bestanden zelf en niet om de metadata. Ik neem aan dat het je ook niet om organisatorische kwaliteitseisen gaat. Welke kant zou ik op moeten denken?

    Chido Houbraken
  • Het gaat juist wel om de eisen aan de warc-bestanden zelf. Zowel inhoudelijk als technisch. Denk bijvoorbeeld aan:

    • Een warc-archief (dat kunnen meerdere files zijn) is compleet en actueel. Dus dat alle pagina's van een website er in zitten, en dat wijzigingen ook opgenomen zijn. Hoe leggen we dat ondubbelzinnig vast wat 'compleet' en 'actueel' is.

    • Elke webpagina is zodanig in het warc-archief opgenomen dat hij later weer af te spelen is. Met alle bijlagen die daarvoor nodig zijn (zoals stylesheet, fonts, plaatjes, etc.)

    • De metadata over het archiveringsproces zelf. Welke software is daarvoor gebruikt, met welke instellingen, wanneer is een pagina opgehaald, welke pagina's waren niet bereikbaar, welke cookie-instellingen zijn gebruikt, etc.

    Ik weet niet of dit allemaal relevant is. Maar we willen voorkomen dat we nu warc-archieven maken die over een aantal jaren niet goed bruikbaar blijken te zijn. We kunnen natuurlijk niet meteen alles vastleggen in kwaliteitseisen. Het lijkt me al heel wat als we kunnen vangen wat een volledig, actueel, leesbaar en authentiek warc-archief betekent.

    Erik Saaman
  • Als voorbeeld kan ik inmiddels twee kwaliteitseisen noemen die uit een goede reactie van de KB kwam:

    1. Alle (technische) headers die de webserver terugstuurt voorafgaand aan het opleveren van de inhoud van de webpagina moet in de WARC worden opgeslagen.

    2. De inhoud van de webpagina mag niet worden aangepast tussen dat het door de webserver is opgeleverd en dat het in het WARC-bestand wordt opslagen.

    Beide zijn nodig voor een goede 'afspeelbaarheid' in bijvoorbeeld de Wayback-machine, en de tweede eis is ook nodig voor de authenticiteit en integriteit.

    Jeroen van Luin

Trefwoorden