Proof of Concept databasearchivering met SIARD

  • jul 2019
  • Pepijn Lucker
  • ·
  • Aangepast 27 jun
  • 3
  • 35
Pepijn Lucker
InformatiehuishoudingOverheden
  • Jeroen Jansen
  • KIA Community Manager
  • Esther van Hofwegen
  • Jacob Takema
  • Violet
  • Mark Rijpkema
  • Rens Ouwerkerk

De eerste vier maanden van 2019 heeft een projectteam van het Nationaal Archief (NA) gewerkt aan een proof-of-concept voor database archivering door middel van SIARD. Door het SIARD formaat en de SIARD tools in de praktijk te testen werd er kennis en ervaring opgebouwd. Ook zijn er leerpunten en aanbevelingen gedefinieerd die in een vervolgtraject kunnen worden meegenomen.

SIARD staat voor Software Independent Archiving of Relational Databases en is ontwikkeld door het Zwitserse Bundesarchiv om relationele databases duurzaam te kunnen archiveren. Het is een open file format voor de lange termijn archivering van relationele databases in de vorm van tekst data gebaseerd op XML die zijn verpakt in een container file (SIARD archive genaamd). Internationaal wordt SIARD gebruikt door diverse Nationale Archieven (naast Zwitserland bijvoorbeeld Estland en Denemarken) of wordt er mee geëxperimenteerd (Verenigd Koninkrijk). In het E-Ark project (2014-2017) is SIARD bijgewerkt naar een nieuwe, verbeterde versie (SIARD v2.1). SIARD maakt deel uit van het EU Connecting Europe Facilities (CEF) initiatief, dat werkt aan standaard bouwblokken voor een gemeenschappelijke digitale markt. SIARD is onderdeel van het bouwblok eArchiving. Ondersteuning is daardoor in toekomst geborgd.

De doelstellingen van het project waren:
1. Het opleveren van een Proof-of-Concept dat het converteren, ingesten en vervolgens weer extraheren en toegankelijk maken van een relationele database met behulp van SIARD mogelijk is.
2. Het opdoen van kennis en ervaring over het opnemen van databases in het e-Depot door middel van SIARD bestanden, met als doel dit ook te kunnen implementeren.
3. Het opdoen van kennis en ervaring over het verlenen van toegang tot de gearchiveerde databases, met als doel dit ook te kunnen implementeren.
4. Het beter intern en extern kunnen adviseren over het archiveren of opnemen van databases in het e-Depot.

Gedurende het project is gebruik gemaakt van twee verschillende softwarepakketten. Ten eerste de SIARD Suite, die door het Zwitserse Bundesarchiv is ontwikkeld. En ten tweede de database preservation toolkit en visualisation toolkit van het Portugese bedrijf KEEP Solutions. Beide pakketten zijn open source en gratis te downloaden en installeren.
Beide pakketten zijn gebruikt bij het testen met diverse databases. Er is gekozen voor Microsoft Access en MySQL databases. Dit zijn gangbare types (relationele) database. Beide types worden door de softwarepakketten ondersteund. Er is getest met kleine, relatief simpele databases en met grotere, gecompliceerdere databases, van beide types.De testen bestonden uit:

  • het met de twee software-pakketten converteren van de diverse geselecteerde databases naar SIARD formaat. De verschillen tussen de twee pakketten zijn gedocumenteerd.

  • het ingesten (opnemen) van de geconverteerde databases in de testomgeving van het e-depot.

  • het opnemen van de beschrijvende metadata in de testversie van het collectiebeheer systeem.

  • het uitproberen van diverse scenario’s om de naar SIARD formaat geconverteerde bestanden beschikbaar te stellen voor gebruikers.

Verder is er een eerste set van essentiële kenmerken geselecteerd die gebruikt kan worden om de kwaliteit van de geconverteerde SIARD files vast te stellen. Deze set is opgesteld door de Archive Interest Group van de Open Preservation Foundation, op basis van het zogenaamde INSPECT framework.

Een belangrijke bevinding die tijdens het project werd gedaan was dat SIARD een geschikte standaard is om de inhoud van databases (de (meta)data en relaties tussen tabellen) op te slaan en bewaren. Maar de SIARD standaard heeft slechts zeer beperkte mogelijkheden om het gedrag van de database (views, functionaliteit, stored procedures, rapportagemogelijkheden) te bewaren. Een SIARD-file biedt qua data inhoud niet meer dan een ‘gewone’ SQL-dump uit de database. Een SQL-dump is gebaseerd op de SQL-query standaard en een manier om data uit de ene database te migreren naar een andere. Er is veel tooling om SQL-dumps uit de ene database in te lezen in de andere. De SIARD standaard biedt als groot voordeel dat de database ook uitgebreid gedocumenteerd kan worden. Bovendien wordt de standaard internationaal ook veel gebruikt. De grote uitdaging bij het preserveren van databases zit in het kunnen reproduceren van het gedrag van de database aan de gebruiker. Er is maar zeer beperkt tooling beschikbaar om op basis van SIARD file een database te kunnen tonen aan de gebruiker. Afgezien van het feit dat de tooling wordt beperkt door de inhoud van de SIARD-file is de functionaliteit beperkt tot het tonen en doorzoeken van de inhoud van de tabellen. Eventuele relaties en gedrag zal de gebruiker zelf met eigen queries moeten reconstrueren.

Het projectteam heeft op basis van de projectresultaten een aantal aanbevelingen gedaan:

1. Ga verder, samen met een archiefvormer
Gedurende de PoC hebben we getest met databases van het Nationaal Archief. Voor de beperkte, technische tests die we hebben gedaan was dat voldoende. Het is goed om bij een vervolgtraject een archiefvormer te betrekken. Samen kunnen dan aansluitvoorwaarden worden ontwikkeld en getoetst.
2. Onderzoek het tonen van de database aan de gebruiker
Start een PoC met het aanroepen van de SIARD viewer vanaf de website die een SIARD-bestand uit het e-depot ophaalt. Vergelijk de functionaliteit van de viewer met het inlezen van een SQL-dump in een database omgeving. Betrek in dit onderzoek klanten/gebruikers.
3. Essentiële kenmerken verder uitwerken
In het kader van de AIG (Archive Interest Group) van de OPF is er een basisset criteria (zogenaamde essentiële essentiële kenmerken) opgesteld. Aanbeveling is om deze basisset in een vervolgtraject verder te toetsen.
4. KEEP Solutions Software
De KEEP Solutions software is in april/mei vernieuwd en geschikt gemaakt voor de huidige versie van SIARD. Aangezien vooral de visualisation toolkit veelbelovend is raden we aan om hier in een vervolgtraject mee te testen.
5. Kennisproduct
Informeer archiefvormers en andere archiefinstellingen over de mogelijkheden door middel van een kennisproduct over archiveren van databases. Dit is ook zo afgesproken in de standaardisatieraad voor kennisproducten.

Na de zomer gaat het NA verder met deze aanbevelingen aan de slag.

Reacties

3 reacties, meest recent: 19 juli 2019
  • Interessant, de SIARD-standaard kende ik nog niet. Roept bij mij wel wat vragen op. Misschien kun je er nu al iets over zeggen en anders wellicht iets om mee te nemen in het vervolgonderzoek:
    Is het jullie beeld dat overheden deze standaard bij creatie al zouden moeten hanteren? Of is het logischer pas te converteren op het moment van overbrenging? En als dat laatste het geval is, zou dat dan onderdeel van de preserveringstrategie van de archiefinstelling moeten zijn of zien jullie dat als taak van de overbrengende partij? En zijn er nog specificaties waaraan een bestand moet voldoen om die conversie te kunnen uitvoeren?
    Met andere woorden: als we deze standaard willen omarmen, welke maatregelen kunnen we dan aan de design-kant nu al nemen om dat mogelijk te maken?

    Rens Ouwerkerk
  • Hoi Rens,

    SIARD is een preserveringsstandaard die niet al op moment van creatie - en gebruik - van databases kan worden gehanteerd. Daarvoor is het te statisch. Conversie zou dus pas op het moment van overbrenging gaan plaatsvinden. Hoe wat dat precies vorm moeten geven en onder welke voorwaarden is onderdeel van het vervolgonderzoek. Inclusief de specificaties waaraan een SIARD bestand moet voldoen.

    Pepijn Lucker
  • De SIARD methodiek is voor mij ook nieuw. Hoe zou ik dit moeten zien in relatie tot de informatie die je wilt archiveren cq. die relevant is om te archiveren.
    Wat is de insteek van SIARD ? Is dit het archiveren van het vehikel of het archiveren van de relevante archiefwaardige informatie die in het vehikel zit (waarvoor het misschien niet per se noodzakelijk is om het geheel vehikel te archiveren)?
    Ook in relatie tot jullie vervolgtraject en de essentiële kenmerken. Ga je een analysetraject in en bepaal je wat je de essentiële kenmerken van alle onderdelen van het vehikel (de database) zijn om het vehikel vervolgens met SIARD te archiveren of andersom en bepaal je wat je aan informatie wilt archiveren vanuit archieftechnische invalshoek bezien en kijk je dan welke database-objecten je daarvoor moet hebben en hoe je die objecten mbv SIARD archiveert. Of is het een combinatie?

    Mark Rijpkema

Trefwoorden