Verslag kennisbijeenkomst voorkeursformaten en (pre)ingest tooling
Op 15 april 2019 organiseerden de KIA-Kennisplatforms E-depot en Preservation samen met het Netwerk Di...
Digitaal archiefmateriaal kan worden opgeslagen en gecomprimeerd in zogenaamde containerformaten. Voorbeelden hiervan zijn ZIP, WARC of TAR. Door verschillende archiefvormers én archiefinstellingen wordt aan het NA de vraag gesteld of het mogelijk is om een containerformaat als eenheid op te slaan in het e-depot (van het NA of elders) of dat dit eerst moet worden uitgepakt en de bestanden afzonderlijk moeten worden aangeleverd.
Containerbestanden zoals bijvoorbeeld ZIP of WARC zijn technisch gezien geen probleem voor (aanlevering aan) het e-depot. Daarbij komt dat diverse bestandsformaten die op de NA lijst van voorkeurs- en acceptabele formaten staan, gebruik maken van ZIP. Te denken valt aan Microsoft Open Office XML (.docx) en Open Office Document (.odf).
Een belangrijke vraag die archiefvormers én archiefinstellingen echter moeten beantwoorden is: wat is het te archiveren en later te gebruiken informatie-object?
Worddocumenten of bijvoorbeeld PDF-documenten zijn meestal ook de te archiveren objecten. WARC-bestanden met gearchiveerde websites ook: hoewel ze vaak uit meerdere bestanden zijn samengesteld, is het geheel van de website meestal het te archiveren object. De compressie en/of het feit dat het een containerbestand betreft is integraal onderdeel van het object.
Waar gaat het bij de containerbestanden om? Vormt alles wat in bijvoorbeeld het zipbestand werd verpakt één logisch geheel dat samen met de nodige metadata in goede, geordende en toegankelijke staat (ggts) is? Of is er sprake van een losse verzameling objecten die toevallig zijn verpakt in een zip-container?
Vanuit het perspectief van de toekomstige gebruiker bekeken: wordt t.z.t. bijv. verwezen naar het geheel van het zipbestand, of wordt verwezen naar specifieke bestanden die in het zipbestand zitten?
In het geval van een (logisch en als zodanig te gebruiken) geheel, kan er desgewenst met zipbestanden gewerkt worden. In andere gevallen adviseren wij de zipbestanden uit te pakken en in die uitgepakte vorm in ggts te brengen.
Mocht er voor containerbestanden gekozen worden, maak ook dan s.v.p. geen gebruik van encryptie/wachtwoordbeveiliging, of bewaar de sleutel zorgvuldig zodat ook deze kan worden meegeleverd bij overdracht aan de archiefstelling.
Het moge duidelijk zijn, er is geen pasklaar antwoord mogelijk dat voor alle mogelijke situaties geldt. Graag vragen we daarom om feedback op dit blog. We nemen deze input graag mee in het verbreden van onze kennis over het omgaan met zipbestanden en andere containerformaten.