Workshop Europese Preforma Project

  • mrt 2017
  • Pepijn Lucker
  • ·
  • Aangepast 27 jun
  • 28
Pepijn Lucker
Preservation Digitaal Erfgoed

Op 7 maart vond in Padua een workshop plaats van het Europese Preforma Project (2014-2017). Tijdens deze dag, gehouden in de historische Botanische Tuin van de Universiteit van Padua, werden de resultaten van het project gepresenteerd door de diverse projectteams en konden de deelnemers van de dichtbij kennis maken met de door het project ontwikkelde tools.

Het Preforma project (PREservation FORMAts for culture information/e-archives) is een zogenaamd Pre-Commercial Procurement (PCP) project en wordt mede gefinancierd door het FP7-ICT Programma van de Europese Commissie. Het doel van het project is de kwaliteit te verbeteren van digitaal archief dat door Archiefinstellingen voor de lange termijn moet worden gepreserveerd. Hiertoe wordt een drietal open source conformity checkers ontwikkeld. Met zo’n conformity checker kan worden gevalideerd of bestanden voldoen aan de voorwaarden van bepaalde specifieke formaten. Het project levert drie van zulke checkers op:

  1. VeraPDF voor pdf/a documenten: zie http://www.preforma-project.eu/pdfa-conformance-checker.html en http://verapdf.org/home/

  2. DPF Manager voor TIF bestanden: zie http://www.preforma-project.eu/dpf-manager.html en http://dpfmanager.org/

  3. Mediaconch voor audio-visuele bestanden (FFV1 en Matroska): zie http://www.preforma-project.eu/mediaconch.html en https://mediaarea.net/MediaConch/

De dag begon met een inleiding op het project door Börje Justrell van het Zweedse Riksarkivet, dat het Preforma project heeft geïnitieerd en nu coördineert. Daarna volgden twee keynotes: van Marco de Niet van Digitaal Erfgoed Nederland (DEN) en van Evelyn McLellan van het Canadese Artefactual Systems Inc.

Marco de Niet begon zijn speech, getiteld “The challenges of digital preservation as a public mission”, met twee pakkende quotes: “Digital Preservation is the defining challenge of our age” maar “The time to act was yesterday”. De Niet is ook betrokken bij het UNESCO Persist project waarbij een driehoek van erfgoedinstellingen, overheid en ICT industrie samenwerkt aan de ‘sustainable information society’. De meeste Europese organisaties hebben nog geen beleid, structureel budget of systemen voor digitale preservation. Het grootste deel van de digitale informatie wordt en kan daarom niet worden gearchiveerd. Dat moeten we dus ook toegeven. Zijn conclusie was dat we sterkere narratieven nodig hebben (selection policies scherper formuleren en toegeven dat niet alles kan worden bewaard; duidelijker maken waarom we dingen doen, wat is de toegevoegde waarde). Het is nu tijd om echt de shift maken van analoog naar digitaal. De oplossing ligt niet op institutioneel niveau, of nationaal niveau. Internationale samenwerking is noodzakelijk.

Evelyn McLellan is president van Artefactual Systems dat open source producten als Archivematica en AtoM levert. Zij hield een verhandeling over diverse aspecten van open source projecten. Naast de tools zelf en de licentiestructuur waaronder deze kunnen worden afgenomen, is ook de rol die de diverse partijen in het ‘ecosysteem’ rondom die tools spelen van groot belang. Te denken valt aan:

  • Standaardisatie Organisaties die standaarden onderhouden op het gebied van bijvoorbeeld metadata (maar die niet altijd samen met de softwareontwikkelaars ontwikkelen).

  • Funding agencies: overheidsfondsen en open source, dat is niet altijd een goede match. De overheid wil geld steken in bedrijven die een product ontwikkelen om dat te vermarkten.

  • Ontwikkelaars, vaak geplaatst bij universiteiten.

  • Leading implementers: vaak niet de organisaties op het nationale vlak, maar op kleinere, lokale schaal. Nationale instituten willen vaak panklare softwarepaketten.

  • Gebruikers: hoe meer hoe beter, liefst internationaal, waardoor open source tools bijvoorbeeld in allerlei talen beschikbaar komen. Gebruikers leveren support aan elkaar, i.p.v. alleen het bedrijf dat de software heeft ontwikkeld.

  • Non-profit organisaties en particuliere bedrijven.

Ook besprak ze diverse business modellen voor open source bedrijven (want open source wil niet zeggen dat een bedrijf geen kosten heeft). Voorbeelden daarvan zijn het Membership model (software is gratis maar daarboven een laag van extra diensten, privileges voor betalende leden), het Bounty development model (software is gratis maar nieuwe ontwikkelingen worden door een of meer deelnemers betaald en vervolgens aan de community ter beschikking gesteld). En het Services model (gratis software maar bijvoorbeeld hosting, tech support, data migration kosten geld).

Na een paneldiscussie was het in de middag de beurt aan de projectteams om de tools te presenteren die waren ontwikkeld.

veraPDF: An industry-supported PDF/A conformance checker (Carl Wilson, Open Preservation Foundation; Boris Doubrov, Dual Labs)

De belangrijkste punten uit hun presentatie waren:

  • checker of bestanden voldoen aan de pdf/a standaard.

  • Maar het doet ook pdf features extraction

  • Policy checker: naast controle of een file aan de pdf/a standaard voldoet kan je je eigen aangepaste checks doen (voor de eigen specifieke situatie, bijvoorbeeld als je bepaalde fonts niet wil)

  • Metadatafixer: simpele metadata reparaties

  • Belangrijk tijdens het project: industry support door de pdf industrie

  • Validation profiles zijn aparte xml-docs. Daarmee kun je weer de output van verapdf controleren: waarom geeft het een bepaalde uitkomst, op welke specificatie gaat dat terug?

DPF Manager (Miquel Montaner en Xavier Tarrés Bonet, Easy Innova; Josep Lluis De La Rosa, Universiteit van Girona)

De belangrijkste punten uit hun presentatie waren:

  • DPF staat voor Digital Preservation Formats

  • De tool is specifiek voor het veel voorkomende TIF afbeeldingsformaat. Het feit dat je een TIF bestand kan openen wil nog niet zeggen dat het volgens specificatie is gemaakt.

  • TIF is een complex formaat. Iedere producent interpreteert de regels op zijn eigen manier

  • NB: niet alle specificaties (tags) van TIF zijn geschikt voor digital preservation! Daarom is het TI/A standaard initiatief gestart (naar voorbeeld PDF/A). circa 80 TIF experts proberen het eens te worden over welke tags essentieel zijn voor preservation en welke een probleem zijn. Na veel discussie is ook Adobe aan boord. Inmiddels hebben ze een voorstel gedaan aan ISO voor opname van TI/A als nieuwe standaard. Zie ook http://www.ti-a.org/

  • Test zelf met de DPF manager of 1) je TIF’s goed zijn gecreerd en 2) of ze daadwerkelijk kunnen worden gepreserveerd.

MediaConch: Conformance checking for audiovisual files (Jérôme Martinez and Dave Rice, MediaArea.net)

De belangrijkste punten uit hun presentatie waren:

  • MediaConch checkt op basis van bepaalde policies. Deze kan je zelf maken maar je kan ook standaard / voorbeeld policies gebruiken

  • Bevat een fixer, voor ‘bit flip’ correctie

  • GUI (graphical user interface), CLI (command line interface), webinterface

  • PDF/A checker met veraPDF plugin

  • TIF checker met DPF Manager plugin

  • In eerste instantie gefocused op de audio-visuele formaten FFV1 en Matroska.

Het Nationaal Archief wil de drie door Preforma ontwikkelde validatietools graag nader uitproberen en bij gebleken geschiktheid opnemen in de eigen e-Depotvoorziening. Daarvoor wordt in de loop van dit jaar een testtraject ingericht.

Voor meer informatie over het Preforma Project en de workshopdag zie deze links:

http://www.preforma-project.eu/

http://www.digitalmeetsculture.net/article/results-of-the-preforma-innovation-workshop/

http://www.digitalmeetsculture.net/projects/preforma/

http://www.preforma-project.eu/workshop-padua-programme.html (inclusief presentaties van de workshop)