NDE-vragenuur over Preservation Watch op 8 april
Steeds meer collecties van archieven, bibliotheken, media, musea en kennisinstellingen komen digitaal...
Tekst: Pepijn Lucker
In 2019 heeft een projectteam van het Nationaal Archief (NA) een proof-of-concept gerealiseerd voor database archivering door middel van SIARD.
SIARD staat voor Software Independent Archiving of Relational Databases en is ontwikkeld door het Zwitserse Bundesarchiv om relationele databases duurzaam te kunnen archiveren. Het is een open file format voor de lange termijn archivering van relationele databases in de vorm van tekst data, gebaseerd op XML, die zijn verpakt in een container file (SIARD archive genaamd). In Europa wordt SIARD gebruikt door diverse Nationale Archieven (naast Zwitserland bijvoorbeeld Estland en Denemarken) of wordt er mee geëxperimenteerd (Verenigd Koninkrijk). Inmiddels is SIARD onderdeel van de Europese standaarden voor e-archiving (https://ec.europa.eu/cefdigital/wiki/display/CEFDIGITAL/eArchiving+Standards) geworden.
Door het SIARD formaat en de SIARD tools in de praktijk te testen werd er kennis en ervaring opgebouwd. De leerpunten en aanbevelingen zijn in 2020 in een vervolgproject (fase 2) meegenomen en verder uitgewerkt. Het doel was:
Implementeren van basisfunctionaliteit voor het opnemen en duurzaam toegankelijk maken (beschikbaar stellen) van databases.
Het opdoen van verdere kennis en ervaring over het opnemen van databases in het e-Depot door middel van SIARD bestanden, met als doel dit ook te kunnen implementeren.
Het opdoen van verdere kennis en ervaring over het verlenen van toegang tot de gearchiveerde databases, met als doel dit ook te implementeren.
Het beter intern en extern kunnen adviseren over het archiveren van relationele databases.
In april vorig jaar is naar aanleiding van de coronacrisis en de daardoor veroorzaakte capaciteitsvraagstukken besloten om het project databasearchivering tijdelijk stil te zetten. Afgelopen november kon het project weer worden opgestart, in afgeslankte vorm en met een puur interne, meer technische focus. Het project heeft vervolgens een aantal dingen opgeleverd:
De database archiveringssoftware, KEEP Solutions DBPTK (Database Preservation Toolkit), is geïnstalleerd op een testomgeving en de installatie is gedocumenteerd.
Er zijn nieuwe SIARD signatures geïnstalleerd in de Preservica testomgeving, zodat SIARD bestanden correct kunnen worden geïngest in het e-depot.
Er zijn functionele testen gedaan met de webviewer waarmee gearchiveerde databases kunnen worden ontsloten. Bijvoorbeeld met 'denormaliseren' (compact tonen) van databases en de mogelijkheden tot afschermen van bepaalde tabellen.
Uiteindelijk leverde dit een demo-waardige applicatie op die aan archiefvormers kan worden gepresenteerd. De applicatie kan worden ingebouwd in een product dat aan klanten kan worden aangeboden en worden getoetst bij daadwerkelijke overdracht van een of meerdere databases. Hiermee anticipeert het NA op de te verwachten aanvragen van archiefvormers in de nabije toekomst. Eind Q1 2021 is het project afgesloten.
Reacties
SIARD is een tamelijk specifieke manier voor het archiveren van databasegegevens (hele database in een keer; en als ik het goed begrijp dan is het voor hergebruik nodig om het gearchiveerde resultaat eerst weer in te lezen in een RDBMS). Er zijn ook situaties waarin je databasegegevens op een ander niveau wil of moet archiveren, bijvoorbeeld op het niveau van database records (in een RDBMS-datamodel de rijen in een tabel). Is daarover binnen Nederland kennis aanwezig of zelfs vastgelegd?