Vers van de preserveringpers #7 (januari-februari 2026): bitpreservering

  • 27 feb
  • Remco van Veenendaal
  • 124
Profielfoto van Remco van Veenendaal
Preservation Digitaal Erfgoed
  • Profielfoto van Lotte Wijsman
  • Profielfoto van Eva van den Hurk - van 't Klooster

Een tweemaandelijks blog over digitale preservering in en om het Nationaal Archief

Welkom bij dit zevende blog over digitale preservering in en om het Nationaal Archief (NA). In dit blog informeer ik je over ontwikkelingen rondom digitale preservering bij het NA en wat me verder de afgelopen twee maanden in ons vakgebied opviel. Feedback is welkom.

Inhoud

  1. Kernprocessen
  2. Schijfschaarste
  3. Gelaagde opslag
  4. AI, ai ai
  5. Floppyforensiek
  6. Bonus: Open Fixity

Eerdere edities van 'Vers' vind je via deze zoeklink https://kiacommunity.nl/welcome/search?search%5Bkeyword%5D=preserveringpers.

Kernprocessen

Het Europese project EOSC EDEN werkt onder andere aan kernprocessen voor digitale preservering (Core Preservation Processes). Ik kondigde het project al aan in Vers#1. EDEN staat voor Enhancing Digital preservation strategies at European and National level. EOSC staat voor European Science Cloud.

Ik nodig je van harte uit om de beschrijvingen van de kernprocessen of CPP's van https://eden-fidelis.eu/core-preservation-processes te bestuderen. Voor alle duidelijkheid: EDEN werkt niet aan een certificeringsinstrument. En ook niet aan een volwassenheidsmodel. EDEN werkt ook niet aan processen voor bijvoorbeeld beleid, financiën en governance. Het gaat echt om de kern van digitale preservering: die kernprocessen die nodig zijn om digitale documenten duurzaam te bewaren en bruikbaar te houden. Denk daarbij aan:

  • virusscannen, back-ups en versiebeheer
  • bestandsformaatidentificatie- en validatie
  • bestandsformaatmigratie (of -conversie) en emulatie
  • zoeken, vinden en weergeven
  • en meer...

In totaal zijn er 30 CPP's gedefinieerd. Er is een fijne tool in ontwikkeling die laat zien hoe de CPP's samenhangen: https://cpp.fd-dev.csc.fi/. EDEN staat open voor je feedback op hun werk tot nu toe en ideeën voor hun toekomstige werk. Wat vind jij van de CPP's? In hoeverre heb jij deze kernprocessen geïmplementeerd?

NB Ik schrijf 'documenten' vanwege de WOO en als voorschot op de Archiefwet 20XX. Lees in plaats van documenten gerust informatieobjecten, data, gegevens of archiefbescheiden.

Technology Watch: schijfschaarste

Een van de dingen die je volgens EDEN op orde moet hebben is bitlevelpreservering: het in stand houden van de opgeslagen enen en nullen waaruit je documenten bestaan. Ook in bijvoorbeeld de Wegwijzer Duurzaamheidsbeleid is dit een belangrijk aandachtsgebied (https://kennis.cultureelerfgoed.nl/index.php/Bitpreservering).

NB De Wegwijzer Duurzaamheidsbeleid wordt gehost door de RCE en is een naar het Nederlands vertaalde en doorontwikkelde variant op de Catalogue of Preservation Policy Elements van het Europese project SCAlable Preservation Environments (SCAPE), zie https://web.archive.org/web/20220119151719/https://scape-project.eu/wp-content/uploads/2014/02/SCAPE_D13.2_KB_V1.0.pdf. Je kunt deze wegwijzer bijvoorbeeld gebruiken als inspiratiebron voor je preserverings- of duurzaamheidsbeleid (preservation policy).

Een randvoorwaarde voor bitlevelpreservering is dat je überhaupt documenten kunt opslaan op informatiedragers. Als NA maken we ons klaar voor het ontvangen van steeds grotere volumes digitaal geboren archief, inclusief overheidswebsites, videotulen en data. Het is dan niet prettig om te vernemen, dat er een tekort aan harde schijven dreigt. Zie bijvoorbeeld: https://tweakers.net/nieuws/244752/tekort-aan-harde-schijven-dreigt-nu-western-digital-voor-2026-is-uitverkocht.html. De reden: alle grootschalige AI- en datacenterprojecten. De windows waarin je partijen schijven kunt bestellen worden kleiner en de prijzen hoger.

Mocht je binnenkort dus nog grote hoeveelheden documenten verwachten, wees er op tijd bij om harde schijven te bestellen. Schaarste maakt duur, dus let ook op als je afnemer van cloudopslag bent.

Gelaagde opslag

Als we het dan toch over opslag hebben: hoe ziet jouw opslagstrategie eruit? Bij ons staan veel documenten in het e-depot op solid state drive (SSD). Andere organisaties kozen voor cloudoplossingen. Weer andere organisaties hebben een gelaagde opslagstrategie (tiered storage), waarbij ze bijvoorbeeld naast van SSD en/of harde schijven (HD) gebruik maken van LTO-tape (https://en.wikipedia.org/wiki/Linear_Tape-Open).

Ik kan me voorstellen dat het vanwege geld, informatiebeveiliging, het klimaat en preserveringsvoorschriften een goed idee kan zijn om te differentiëren. Stel dat je kiest voor een opslagstrategie met drie lagen:

  1. SSD voor zichtexemplaren van veelgevraagde documenten en je werkprocessen
  2. HD's met spindownfunctionaliteit - de motor minder of niet laten draaien als de HD niet gebruikt wordt - voor minder vaak opgevraagde documenten
  3. LTO-tape voor dat wat nauwelijks opgevraagd wordt en je preserveringskopieën

Qua klimaat denk ik dan, dat je energiegebruik en je CO2-voetafdruk omlaag zouden kunnen gaan. Minder energiegebruik is vervolgens goed voor je portemonnee. Vanuit informatiebeveiliging bekeken kan een voordeel van tape zijn, dat je die offline bewaart en daarmee onbereikbaar maakt voor hackers. En toegegeven, je gebruikers moeten misschien even wachten als er een weinig opgevraagd document van tape opgehaald moet worden. Maar als je tijdens het wachten informatie geeft waarom men even moet wachten, dan verwacht ik daar weinig klachten over. Ik ben echter soms wat naïef-optimistisch.

Het is trouwens sowieso goed om niet al je document-eieren in één technologisch informatiedrager-mandje te stoppen. In de NDSA Levels Of Preservation (https://ndsa.org/publications/levels-of-digital-preservation/) staat bij level 4 niet voor niets: "Maximize storage diversification to avoid single points of failure".

Dus: hoe ziet jouw opslagstrategie eruit, en waarom?

AI, ai ai

Ik schreef net, dat de AI-hausse zorgt voor een tekort aan schijven. In die zin zou je het een slechte ontwikkeling voor ons vakgebied kunnen noemen. Maar net als in andere vakgebieden brengt AI voordelen en kansen met zich mee. Steeds meer preserveringssytemen bouwen bijvoorbeeld AI in voor betere duurzame toegankelijkheid. Een willekeurige greep uit het aanbod:

Persoonlijk maak ik regelmatig gebruik van AI. Hobbymatig, omdat ik ooit afstudeerde in de specialisatie Kunstmatige Intelligentie en Natuurlijke Taalverwerking aan de RUG - ik kijk uit naar GPT-NL. En professioneel, zoals bij het ontwikkelen van mijn in Python geschreven Pre-ingest Records Inspector and Metadata Extractor p_r_i_m_e voor identificatie, validatie, metadata-extractie, policychecking en SIP-creatie volgens het referentiewerkproces van de OPF. Meer over p_r_i_m_e in een latere Vers. Het is bijzonder prettig om in je ontwikkelomgeving hele lappen code of commentaar gesuggereerd te krijgen na het typen van een of twee instructies. Of om tips te krijgen om stukken code efficiënter te maken.

Al met al is mijn relatie met AI dubbel. Aan de ene kant vind ik de ontwikkelingen persoonlijk interessant en brengt AI voor ons vakgebied allerlei voordelen en kansen met zich mee. Aan de andere kant vreet AI energie, banen en harde schijven. Ik probeer daarom zoveel mogelijk volgens mijn AI-vuistregel te werken: AI is geen doel op zich, maar slechts een van de mogelijke middelen om je doel te bereiken.

Floppyforensiek

Oké, harde schijven worden schaars. Opslagdifferentiatie kan een goed idee zijn. AI heeft voor- en nadelen. Dat zijn uitdagingen voor nu en later. Zo zijn er ook uitdagingen uit het verleden. Want wie van ons heeft er geen floppy's in zijn professionele of (als je wat ouder bent) persoonlijke archief?

Het is dan goed om te weten dat er verscheidene initiatieven zijn om floppykennis te preserveren. In het bijzonder wil ik het Future Nostalgia-project graag onder de aandacht brengen: https://www.lib.cam.ac.uk/future-nostalgia. Onlangs kreeg het project aandacht in Popular Science: https://www.popsci.com/technology/floppy-disk-archivist-project/.

Het Future Nostalgia-project is een initiatief van de Cambridge University Library dat onderzoekt hoe floppy's in erfgoedcollecties het beste kunnen worden bewaard voordat hun data onleesbaar wordt. Het doel is tweeledig:

  • een centrale bron van kennis over floppydiskpreservering opbouwen
  • deze kennis verdiepen door interviews met mensen met ervaring en experimenten met specialisten

NB Future Nostalgia zorgde voor de eerste versie van de gids Copy that floppy! (https://www.digipres.org/the-floppy-guide/). Deze gids geeft je praktische uitleg over hoe je van floppy's schijfkopieën kunt maken - imagen. Andere aan floppy's gerelateerde initiatieven zijn bijvoorbeeld Handleiding Verouderde Dragers Herkennen - Meemoo Kennisbank, Capteren van data van 3.5-inch en 5.25-inch diskettes - Meemoo Kennisbank en Je erfgoeddata redden? Het HomeComputerMuseum helpt hierbij! - Netwerk Digitaal Erfgoed.

Wij hopen tijdens iPRES 2026 in Kopenhagen (https://ipres2026.dk/) een projectupdate te krijgen van projectleider Leontien Talboom. Zien we jou daar ook?

Bonus: Open Fixity

Afgelopen week was ik in Oxford (V.K.). Daar kwamen het team en de bestuursleden van de OPF bijeen. Nuttig en aangenaam. Omdat deze editie van Vers veel over bitpreservering gaat, wil ik een nieuwe, gratis opensourcetool onder de aandacht brengen: Open Fixity.

De OPF nam Fixity Pro over van AVP en maakte er een opensourceproject van. Fixity Pro controleert de integriteit van bestanden door checksums (digitale vingerafdrukken) te berekenen en deze periodiek te vergelijken met eerder vastgelegde waarden. Als een checksum verandert, wijst dat op mogelijke corruptie, bitrot of ongewenste wijziging. Fixity Pro kan je zo helpen bij het werken aan de EDEN-CPP's over bitlevelpreservering.

Wat nu nog Fixity Pro heet, zal uiteindelijk als Open Fixity door het leven gaan, zie https://fixitypro.com/.

Trefwoorden