Vers van de perserveringspers #4 (juli-augustus 2025)

  • 27 aug
  • Remco van Veenendaal
  • 71
Remco van Veenendaal
Preservation Digitaal Erfgoed
  • Inge Baars

Een tweemaandelijks blog over digitale preservering in en om het Nationaal Archief

Welkom bij dit vierde blog over digitale preservering in en om het Nationaal Archief (NA). In dit blog informeer ik je over ontwikkelingen rondom digitale preservering bij het NA en wat me verder de afgelopen twee maanden in ons vakgebied opviel. Feedback is welkom. De vijf onderwerpen van deze keer zijn:

  1. Buurten bij de KB; interesse in een open netwerkbijeenkomst?
  2. Spel erbij; welke speel jij?
  3. CloudViper; lancering komt dichterbij
  4. Dashboards; welke gebruik of maak jij?
  5. Stages; wat zijn jouw onderzoeksvragen?

Buurten bij de KB

Zo nu en dan gaan we op bezoek bij onze collega's van de KB - of zij bij ons. 'Wij' zijn vaak mijn team digitale preservering. 'Zij' zijn de afdeling digitale duurzaamheid. Op 2 september zoeken we elkaar weer eens op. Ditmaal nemen wij een aantal geïnteresseerde collega's van andere teams en afdelingen mee. Het belooft een interessante bijeenkomst te worden. Op de agenda staan onder andere onze beide e-Depots, hoe we omgaan met bestandsformaten en sociale media archivering.

Nu is dit een besloten bijeenkomst, dus heb je er niet meteen wat aan. Maar stel dat we eens een open bijeenkomst over ons vakgebied organiseren. Ook vanuit de Netwerk Digitaal Erfgoed- en KIA-gedachte. Zou jij daar dan in geïnteresseerd zijn? En welke onderwerpen zou jij dan willen halen en brengen?

Spel erbij

Ik geef het meteen toe: het is geen wereldnieuws. Komkommertijd. Maar toch wil ik ook via deze weg Alexandre bedanken voor het inzenden van het spel 'Op weg naar Substitutie!' voor de lijst spellen op mijn website. Hij had een kopie van dit spel van DCMR Milieudienst Rijnmond liggen. Het is een soort ganzenbordspel over substitutie of vervanging. Er zit een copyrightvermelding op, dus ik kan alleen een thumbnail op mijn website tonen. Wellicht krijg ik ooit toestemming om de hoogresolutiescan toegankelijk te maken. Al was het maar ter inspiratie.

Heb je, of weet je ook van spellen over of gerelateerd aan ons vakgebied? Laat het me weten, en via mij ons allemaal. Er zijn regelmatig fysieke of online spellenmiddagen of -avonden waarop collega's bijeenkomen om spellen te spelen. Ook tijdens de conferentie iPRES blijft de gameroom drukbezocht. Wie weet spelen we binnenkort jouw spel.

CloudViPER

Ik noemde dit in ontwikkeling zijnde nieuwe product in een eerdere 'vers'. Dus dit is meer een update dan nieuws. Maar niet minder interessant! Want eind juni, net na het publiceren van de vorige vers, hielp een aantal van jullie met het stresstesten van CloudViPER. ViPER is een virtuele omgeving met voorgeïnstalleerde veelgebruikte preserveringstools. CloudViPER is de cloudversie van dit product.

Het goede nieuws was dat de test slaagde. Het minder fijne nieuws is, dat we al snel tegen de (netwerk)limieten van CloudViPER aanliepen. Ondertussen is er hard door de Open Preservation Foundation gewerkt aan verbeteringen. Meer nieuws over de lancering van CloudViPER volgt binnenkort. Als je organisatie deelneemt aan het Netwerk Digitaal Erfgoed kun je er vooralsnog gratis gebruik van gaan maken. Ook OPF-leden krijgen gratis toegang. Aan anderen vragen we een vergoeding, want voor niets gaat de zon op.

Dashboards

Binnen het NA zie ik steeds meer gebruik gemaakt worden van dashboards voor het visualiseren van gegevens. Een dashboard in Microsoft Power BI geeft inzicht in welke modules van welke kennisproducten het meest geraadpleegd worden. Een ander dashboard toont nog veel meer statistieken over onze website. En wat ons vakgebied betreft maken we al jaren dankbaar gebruik van C3PO voor het visualiseren van met FITS geanalyseerde documenten. We presenteerden o.a. een dashboard voor WARC-validatie tijdens een afgelopen IIPC WAC. Ook zetten we Power BI in voor het visualiseren van gegevens uit de serverlogs van Preservica met betrekking tot (fout)meldingen en waarschuwingen van DROID en JHOVE.

Nu is C3PO niet de meest gebruiksvriendelijke tool om mee te werken. En is 'ie al helemaal niet fijn om te installeren en beheren. Daarom heb ik wat onderzoek gedaan naar andere tools met dezelfde (pre-ingest)functionaliteit. De TU Wenen heeft ondertussen FITSInn ontwikkeld als opvolger voor C3PO. CSC Finland heeft een File Scraper. Het Noord-Hollands Archief heeft een pre-ingesttool. Et cetera.

PRIME

Eigenwijs als ik ben, heb ik besloten dat al deze tools net niet doen wat ik wil, en ook net niet de reference workflow van de Open Preservation Foundation volgen. Daarom ben ik zelf aan de slag gegaan en werk ik aan PRIME. Deze Pre-ingest Records Inspector and Metadata Extractor bouw ik met assistentie van een AI in Python. PRIME gaat stap voor stap door de reference workflow: eerst identificeren met DROID, dan valideren met bijv. JHOVE, Jpylyzer en veraPDF, metadata extraheren met bijv. Apache Tika en ExifTool, policychecking aan de hand van Schematron (denk aan ons concept-PDF-acceptatiebeleid uit vers 3) en verpakken in een gekozen metadatastandaard zoals PREMIS of MDTO. De tool slaat (deel)resultaten als ruwe data en voor supersnel zoeken in Parquetfiles op - dank aan Jacob voor de inspiratie voor deze datalake-aanpak. Het á la C3PO visualiseren van informatie over de geanalyseerde documenten is vervolgens appeltje-eitje en gaat supersnel.

Een 'minimal viable product' werkt. Zodra ik een wat verder uitgewerkte versie heb zal ik die zeker (via GitHub) delen. Neem gerust contact op als je nu al meer wilt weten.

Stages

In september gaan we de samenwerking aan met twee stagiairs van de studie Archiefwetenschap van de UvA. Een gaat in ons team aan de slag met het onderwerp Representation Information: wat is er nodig om documenten optimaal begrijpelijk aan onze doelgroep aan te bieden? Want je weet: Data Object + Representation Information = Information Object (OAIS). We gaan ook samenwerken met een stagiair bij het Ingenieursbureau van de gemeente Amsterdam. Diens onderwerp is duurzame digitale ruimtelijke data. Dit mede n.a.v. ons adviesrapport BIM-verkenning.

Hiermee heb je een inkijkje gekregen in onderzoeksvragen waar zij, en wij dus, de komende tijd aan werken. Wat zijn jullie onderzoeksvragen of grootste uitdagingen op dit moment? Zie ook mijn suggestie voor een open netwerkbijeenkomst. Hoewel de meesten van ons aan eigen (ge)e(n)-Depots werken, zit er ongetwijfeld veel overlap in beleid, strategieën, processen, procedures en activiteiten. Laten we niet allemaal onze eigen wielen uitvinden.

Tot de volgende vers.