Nieuws uit Tallinn over preserveren, cureren en emuleren

  • jul 2018
  • Remco van Veenendaal
  • ·
  • Aangepast 27 jun
  • 36
Remco van Veenendaal
Preservation Digitaal Erfgoed
  • Mathé van der Velden
  • Violet
  • Verwijderde gebruiker
  • KIA Community Manager

In de laatste week van mei 2018 nam ik namens het Nationaal Archief deel aan de Annual General Meeting (AGM, jaarlijkse ledenvergadering) van de Open Preservation Foundation (OPF, www.openpreservation.org) in Tallinn, Estland. De OPF ondersteunt technologie en kennis voor het langetermijnbeheer van digitaal cultureel erfgoed, en beheert bijvoorbeeld een aantal belangrijke opensourcetools.

Preserveren

Voorafgaand aan de ledenvergadering kwam de Archive Interest Group (AIG) bijeen. In deze AIG werken het Deense, Estse en Nederlandse nationale archief samen aan oplossingen voor preserveringsuitdagingen waar we als archieven voor staan. Omdat deze uitdagingen zich vaak niet beperken tot archieven, zijn bijvoorbeeld ook de KB en Preservica bij de AIG aangehaakt.

De AIG onderzoekt momenteel de essentiële kenmerken van spreadsheets. Een specifieke actie is het ontwikkelen van een prototype voor het ‘meten’ van de complexiteit van spreadsheets. Het idee is, dat er ‘simpele’ of ‘statische’ spreadsheets zijn, die je ook als csv-tekstbestand, pdf-document of afbeelding zou kunnen preserveren, zonder informatie te verliezen. Daar staan ‘complexe’ of ‘dynamische’ spreadsheets tegenover, die in een specifiek spreadsheetformaat gepreserveerd moeten worden. Denk hierbij aan spreadsheets met formules, geëmbedde objecten en (VBA-)macro’s. Als je alle simpele/statische spreadsheets bij ontvangst kunt omzetten in relatief eenvoudige bestandsformaten, of bestandsformaten waar je als archief ervaring mee hebt, dan levert dat kostenefficiëntie op, zonder informatie te verliezen.

Het prototype van de ‘Spreadsheet Complexity Analyser’ extraheert informatie over bijvoorbeeld het aantal werkbladen, afbeeldingen, formules, hyperlinks en datums uit spreadsheets. Dit zijn indicatoren van complexiteit. Geïnteresseerd? Neem dan een kijkje op https://github.com/RvanVeenendaal/Spreadsheet-Complexity-Analyser.

Strategie

Tijdens de AGM presenteerde de OPF de conceptversie van de nieuwe strategie, en gaven de leden feedback. Een belangrijk speerpunt uit die strategie is het opstellen van een referentietoolset voor preservering. De definitieve versie van de strategie is ondertussen gepubliceerd. Wil je dus meer weten over hoe de OPF de komende jaren met belangrijke opensourcetools en de community van digitale preservering omgaat, lees dan het nieuwe strategiedocument: http://openpreservation.org/news/open-preservation-foundation-launches-new-strategy/.

Cureren

Ook kregen we een update over de BitCurator, en vooral het project BitCurator NLP (https://bitcurator.net/bitcurator-nlp). BitCurator is een tool voor digital forensics. Een use case is dat je een cd-rom of harde schijf krijgt en je wilt weten wat daar zoal op staat, omdat je een image van die cd-rom of harde schijf via het web of in je lees- of studiezaal toegankelijk wilt maken voor je publiek.

Met het BitCurator NLP-project voegt men tools voor Natural Language Processing (automatische natuurlijke taalverwerking) toe aan de BitCurator. Hierdoor kan de BitCurator nog meer privacygevoelige informatie vinden. Naast e-mailadressen, telefoonnummers, creditkaartnummers en IBAN-nummers bijvoorbeeld ook entiteiten (persoonsnamen, plaatsnamen en organisatienamen), mogelijke relaties tussen deze entiteiten en onderwerpmodellen die aangeven hoe concepten van nature geclusterd zijn binnen documenten.

Niet alleen is het nuttig te weten welke mogelijk privacygevoelige informatie er in documenten zit, ook heeft de Bitcurator-omgeving tools voor het redigeren van dergelijke informatie. Je kunt er dus desgewenst presentatie-exemplaren van maken waar de privacygevoelige informatie uit is gefilterd.

Emuleren

Twee andere initiatieven waar we in Tallinn een update van kregen zijn Emulation as a Service en Wikidata for Digital Preservation.

Bij emulatie boots je de hard- en software van (oude) computeromgevingen na in (krachtige moderne) computers. Zo kun je oude spelcomputers (Commodore 64, Nintendo DS, Sony Playstation) op je computer emuleren en retrospelletjes spelen. Op vergelijkbare wijze kun je PC’s en Macs met Microsoft Windows- en Mac OS-versies emuleren, en documenten in hun natuurlijke habitat tonen. De gangbare preserveringstrategie van veel organisaties is bestandsformaatconversie: het omzetten van informatie in verouderde/gesloten bestandsformaten naar moderne/open bestandsformaten. Omdat hierbij soms informatieverlies kan optreden (omdat conversie niet altijd 100% mogelijk is), is emulatie interessant.

Bij Emulation as a Service (EaaS) gaat dit nog een stap verder: emulatie als clouddienst. Je kunt dan bijvoorbeeld een image van een cd-rom met informatie in de originele Microsoft Windows 95-omgeving in een webpagina aanbieden aan je publiek. Jouw cd-rom, aangeboden op jouw webpagina, maar getoond in een emulatieomgeving van een leverancier, ‘in the cloud’. EaaS is door de universiteit van Freiburg (http://eaas.uni-freiburg.de/) ontwikkeld, maar ook het NA en bijvoorbeeld de KB hebben in het verleden aan emulatieoplossingen gewerkt. Emulatie is tegenwoordig technisch haalbaarder doordat computers steeds krachtiger worden, en EaaS omdat het web steeds sneller werkt. Een uitdaging blijft echter de licentieproblematiek: om emulatie in je lees- of studiezaal aan te bieden volstaat vaak één licentie voor Microsoft Windows 95, maar als je het via je website zou willen aanbieden, heb je vaak formeel een licentie nodig voor iedere potentiële gebruiker. Over deze licentieproblematiek wordt in UNESCO PERSIST (https://www.unesco.nl/digital-sustainability) onderhandeld met leveranciers.

Wikidata

Wikidata for Digital Preservation is een initiatief waarbij ook de Digital Preservation-community gebruik maakt van Wikidata. Wikidata is “a free and open knowledge base that can be read and edited by both humans and machines. Wikidata acts as central storage for the structured data of its Wikimedia sister projects including Wikipedia, Wikivoyage, Wikisource, and others.” Het Nationaal Archief heeft bijvoorbeeld een eigen ingang op Wikidata, waaraan je al goed kunt zien hoe daar informatie uit verschillende informatiebronnen samenkomt: https://www.wikidata.org/wiki/Q1857081.

Veel informatie die van belang is voor preservering is opgeslagen in databanken. Denk aan informatie over software die bepaalde bestandsformaten kan maken, lezen en/of bewerken (zoals Microsoft Word voor .doc- en .docx-bestanden). Of aan informatie over de bestandsformaten zelf, met bijvoorbeeld technische informatie over zo’n bestandsformaat. Meestal zijn deze databanken gesloten, of worden ze door één organisatie onderhouden. Een voorbeeld van zo’n databank is de PRONOM-registry van The National Archives (http://www.nationalarchives.gov.uk/PRONOM/Default.aspx). Wikidata for Digital Preservation verzamelt zoveel mogelijk van dit soort databankinformatie (waaronder PRONOM), en maakt het open toegankelijk voor mens en machine.

Een voorbeeld van een vraag die je al aan Wikidata kunt stellen is “toon alle bestandsformaten met een PRONOM Unique Identifier”: https://query.wikidata.org/#SELECT%20%3Fformat%20%3FformatLabel%20%3Fpuid%0A%0AWHERE%20%7B%0A%20%20%0A%20%20%3Fformat%20wdt%3AP2748%20%3Fpuid%20.%0A%20%20%20%20%20%20%20%20%20%20%20%20%0A%20%20SERVICE%20wikibase%3Alabel%20%7B%0A%09%09bd%3AserviceParam%20wikibase%3Alanguage%20%22en%22%20.%0A%20%20%20%20%0A%7D%0A%20%20%7D. Zie voor meer voorbeelden de in ontwikkeling zijnde portal http://wikidp.org en klik op reports.

En nu met z'n allen...

Stel nu dat je al deze ontwikkelingen samenvoegt, en bijvoorbeeld toepast op e-mailarchivering. Je zou dan d.m.v. EaaS en Wikidata in een webbrowser de e-mails aan het publiek kunnen tonen in de originele e-mailomgeving. En desgewenst nadat privacygevoelige informatie is verwijderd d.m.v. de tools van BitCurator NLP. En dat allemaal niet pas na heel veel klikken, maar grotendeels automatisch, omdat de open tools en data via de cloud met elkaar verbonden zijn.

Disclaimer

BitCurator zal niet alle (privacy)gevoeligheden kunnen verwijderen, maar het kan een begin zijn. Het BitCurator-team gaat trouwens zelf ook aan de slag met e-mailarchivering.

Tot slot

Mocht je meer willen weten over de OPF, of mee willen doen aan OPF-initiatieven, neem dan gerust contact met mij op. In Tallinn trad ik toe tot de board of directors van de OPF, dus goede vragen of ideeën gaan meteen mee naar de bestuurskamer ;-)