Ervaringen met preserveringstools FITS en C3PO

  • apr 2021
  • Eva van den Hurk - van 't Klooster
  • ·
  • Aangepast 27 jun
  • 4
  • 41
Eva van den Hurk - van 't Klooster
Preservation Digitaal Erfgoed
  • Tolga Baksi
  • Mathé van der Velden
  • Annelot Vijn
  • Jacob Takema
  • Remco van Veenendaal
  • Tamara van Zwol
  • Wouter Brunner

De ontwikkeling van digitaal archief stelt ons voor een nieuwe uitdaging: hoe bewaren we aan elkaar gerelateerde bits en bytes op zo’n manier dat ze over 100 jaar nog te lezen zijn? Voor veel archieven ligt de oplossing van de langetermijnarchivering van digitaal archief bij het e-depot. Onderdeel van het e-depot is het inrichten van de preservering van digitaal archief. Om preserveringsopties (migratie, conversie en emulatie) mogelijk te maken, kan gebruik worden gemaakt van preserveringstools. Deze zijn in te zetten zowel voor als na ingest. In deze blog neem ik jullie mee langs de preserveringstools FITS en C3PO.

FITS en C3PO
In het najaar van 2020 ben ik begonnen met het testen van preserveringstools ter voorbereiding op ingests in het e-depot. Vanwege goede ervaringen van andere archiefdiensten, de combinatie van verschillende tools in één en de extra mogelijkheid om de metadata te analyseren via een webinterface, heb ik gekozen voor FITS in combinatie met C3PO.

FITS staat voor File Information Tool Set (FITS) en C3PO voor Clever, Crafty Content Profiling of Objects. FITS identificeert, valideert en extraheert technische metadata uit verschillende soorten bestandsformaten. Het gedraagt zich als een soort container, waarin output van verschillende preserveringstools opgenomen en gemanaged kunnen worden. De output van deze tools worden omgezet naar een standaardformaat, met elkaar vergeleken en gezamenlijk in één XML exportbestand gezet. Tools die in FITS zitten zijn o.a. DRIOD Jhove, Apache Tika en Exiftool.

C3PO is een software tool waarin metadata uit digitale archiefstukken als input worden gebruikt voor een profiel van de dataset. Het biedt filtermethoden en grafieken om analyses los te laten op de informatie uit FITS. Resultaten en analyses kunnen in XML en CSV worden geëxporteerd.

Installatie
Het in elkaar zetten van FITS en C3PO gaat een stuk verder dan een website bouwen in Wordpress. Dat begint met de aanbieding van de tools via Github: je mag ze dus zelf in elkaar knutselen met een aantal downloads. Hiervoor is informatie beschikbaar op Github en bij het Nationaal Archief. Ben je, net als ik, niet dagelijks bezig met programmeren, dan kan het Nationaal Archief (NA) je als archiefdienst hierbij assisteren. Samen met Remco van Veenendaal van het NA heb ik de twee programma’s draaiende weten te krijgen.

Gebruik
FITS en C3PO worden bestuurd via Opdrachtprompt. Door de juiste locaties en codes in te voeren, starten de programma’s op. Voor FITS doe je dat door de locatie van het programma FITS in te voeren en de locatie van de dataset die je door FITS wilt laten analyseren. Als de analyse klaar is, heeft FITS per geanalyseerd bestand een XML-bestand gemaakt waarin de output van de gebruikte tools met elkaar wordt vergeleken. FITS herkent zelf welke geïncorporeerde tools het kan loslaten op een bestand. Zo zal het nooit een tool voor audiovisuele bestanden (bijvoorbeeld MediaInfo) gebruiken voor een Word-document.

In de XML-bestanden staat verschillende informatie onder elkaar:
- Identificatie: formaat, mimetype, formaatversie, PRONOM-ID;
- Bestandsinformatie: grootte, gebruikte software, creatiedatum, checksums etc.;
- Bestandsstatus: is het bestand correct gestructureerd;
- Metadata: beschrijving van de informatie in het bestand;
- Statistieken: welke tools zijn gebruikt om bovenstaande informatie te genereren en hoe lang heeft iedere tool er over gedaan.

Wanneer een tool iets anders leest dan een andere tool, wordt dit als CONFLICT aangegeven. Het kan voorkomen, zoals in het voorbeeld, dat er geen sprake is van een daadwerkelijk conflict in informatie maar een verschil in noteerwijze.
Wanneer voor een dataset alle XML-bestanden zijn aangemaakt kunnen de gegevens van FITS worden ingeladen in C3PO, die via grafieken en tabellen de geëxtraheerde metadata weergeeft. Op basis van deze grafieken en bijbehorende filteropties kunnen lege bestanden (bestanden van 0 KB) uit de set worden gefilterd en problematische bestanden (bestanden waarvan de tools er niet uitkomen wat voor bestandsformaat het heeft) snel worden opgespoord. Het is mogelijk om op basis van eigen wensen nieuwe tabellen aan het C3PO scherm toe te voegen.

Inzetbaarheid in processen
FITS en C3PO zijn preserveringstools die in de pré-ingestfase kunnen worden gebruikt. Ze sporen nog voor de ingest problematische bestanden op, waarover vervolgens met de aanleverende gemeente gesproken kan worden. De tools kunnen ook na ingest gebruikt worden, hoewel hun invloed en nut afhangt van het gebruikte type e-depot. In sommige e-depots is het mogelijk om FITS en C3PO in te bouwen om zo op lange termijn inzage te krijgen in de gesteldheid van het digitale archief. Bij andere e-depots is het niet mogelijk om deze tools in te bouwen. De tools kunnen dan alleen ingezet worden wanneer het digitale archief eerst geëxporteerd wordt naar een lokale schijf. De vraag is of dit wenselijk is.

Actuele bruikbaarheid
De huidige versies van FITS en C3PO bevatten nog een aantal kinderziektes. Zo worden niet alle bestanden uit een dataset al meegenomen door de twee tools. Vooral bij C3PO missen er in de analyse soms vele gegevens. Deze constateringen zijn gedeeld met de ontwikkelaars van de tools. Het is dan ook te verwachten dat over niet al te lange tijd FITS en C3PO volledig naar behoren werken en een mooie bijdrage kunnen leveren aan de langetermijnpreservering van digitaal archief.

Reacties

4 reacties, meest recent: 15 april 2021
  • Wat goed dat je deze ervaringen deelt, Eva!

    Kun je deze resultaten vergelijken met andere tools die hetzelfde doel hebben, of heb je alleen gebruik gemaakt van FITS/C3PO?




    Wouter Brunner
  • Hoi Wouter,
    Tot nu toe heb ik zelf alleen FITS en C3PO gebruikt, dus ik heb (nog) geen ervaring met andere tools. Maar wellicht is er iemand op dit mooie platform die ervaring met andere tools heeft en die hier ook wil posten. Een vergelijking zou inderdaad leerzaam zijn.
    Groet Eva

    Eva van den Hurk - van 't Klooster
  • @Eva, dank voor het delen van je ervaringen!
    @Wouter, deze combinatie van tools heeft een vrij specifiek doel en publiek, en daarom is er niet veel vergelijkingsmateriaal. Deze tools kijken nogal diep in de te ingesten bestanden en kunnen je veel inzicht geven over wat er technisch gezien op je af komt. Andere pre-ingesttools helpen je om een 'SIP' samen te stellen en kijken iets oppervlakkiger naar de bestanden, en juist iets meer naar ordeningsstructuur en metadata. Denk aan MAIS-(Pre)Ingest, RMTool en https://github.com/noord-hollandsarchief/preingest.
    Een beetje appels en peren vergelijken dus. Maar het is wel gezond om die naast elkaar in je fruitschaal te hebben liggen, waarbij je er dan zeker van wilt zijn, dat er geen rotte appels of peren tussen zitten.
    Zie bijvoorbeeld ook https://netwerkdigitaalerfgoed.nl/nieuws/trends-in-tools-om-digitale-collecties-te-verwerken/.
    Blijf je kennis en ervaringen delen. Niet alleen over welke tools we waarvoor gebruiken, maar vooral ook over hoe we de resultaten van die tools vervolgens interpreteren: wat leg je in je fruitschaal, wat gaat er in de groencontainer, en waarom?

    Remco van Veenendaal

Trefwoorden