Preservering en resultaten West-Brabants Archief & Regionaal Archief Tilburg

  • nov 2018
  • Verwijderde gebruiker
  • ·
  • Aangepast 27 jun
  • 1
  • 90
Verwijderde gebruiker
Preservation Digitaal Erfgoed
  • Mathé van der Velden
  • Jacob Takema
  • Pepijn Lucker
  • Violet
  • Remco van Veenendaal

Vanaf 2017 is het e-depot van het West-Brabants Archief en het Regionaal Archief Tilburg in gebruik. Als voorziening hiervoor wordt gebruik gemaakt van Archivematica welke conform het functioneel model OAIS ingericht is. Eén van de belangrijke onderdelen van dit model is preservering. Graag wil ik jullie de resultaten van ons onderzoek en de uiteindelijke keuzes delen. Mocht je hierover vragen, aanvullingen of opmerkingen hebben, brand los!

Preservering van informatieobjecten kan op verschillende manieren uitgevoerd worden. Vooraf bij selectie en opname af achteraf indien een bestandsformaat een bedreiging gaat vormen. Door de continue ontwikkelingen op het gebied van informatie technologie kan het voorkomen dat een bestandsformaat op een bepaald moment onleesbaar wordt. Bijvoorbeeld indien de software waarmee het bestand uitgelezen kan worden niet meer beschikbaar is. Voordat een dergelijke bedreiging ontstaat kan door achteraf te preserveren of gebruik te maken van een toekomstige oplossingen zoals bijvoorbeeld emulatie het bestand alsnog toegankelijk gemaakt worden.

Het West-Brabants Archief (WBA) heeft samen met het Regionaal Archief Tilburg (RAT) een werkgroep opgezet om het onderdeel preservering verder uit te werken en te integreren in het proces van opname in het e-depot. Als uitgangspunt hiervoor is gekozen om dit zoveel mogelijk conform het preserveringsbeleid van het Nationaal Archief te gaan doen. Doordat toekomstige oplossingen mogelijk meer kunnen bieden dan de huidige preservering-technieken is gekozen voor preservering enkel bij opname met daarbij zoveel mogelijk behoud van het originele bestand. Om te zorgen voor een goede bewaring en toegankelijkheid van integere en authentieke informatieobjecten worden enkel bestandsformaten toegelaten tot het e-depot welke dit voor de langere termijn kunnen garanderen. In het document bestandstrategieën (zie bronverwijzing onderaan) van het Nationaal archief is een overzicht van voorkeurs- en acceptabele bestandsformaten te vinden. De reden om enkel deze formaten toe te staan is om dataverlies en dubbele opslag bij conversie door directe preservering te voorkomen. Uit steekproeven bij de aangesloten gemeenten is ook gebleken dat het grootste gedeelte van de huidige digital born informatieobjecten voorkomen op de lijst van de toegestane formaten. Indien een bestandsformaat aangetroffen wordt welke niet op de lijst voorkomt zal het WBA met de archiefvormer in gesprek gaan. Hierbij wordt dan gekeken of een afwijkend formaat zonder te veel verlies naar één van de voorkeurs- of acceptabele formaten kan worden geconverteerd vóór opname in het e-depot bij de archiefvormer zelf. Indien dit niet het geval is kan gekozen worden voor een uitzondering waarbij het origineel toch opgenomen wordt in het e-depot om dataverlies te voorkomen. Toekomstige technologische ontwikkelingen kunnen hiervoor alsnog een oplossing bieden. Deze strategie zal in de komende jaren verder onderzocht worden om hiermee het preserveringsbeleid door te ontwikkelen.

Het WBA heeft samen met het RAT op basis van de lijst voorkeurs- en acceptabele formaten een selectie gemaakt om van elk een bestand op te nemen in het e-depot. Door voor ieder formaat de ingest procedure te doorlopen werd duidelijk hoe Archivematica hiermee omgaat. Standaard bevat Archivematica allerlei preserveringregels welke op maat ge(de)activeerd of aangepast kunnen worden. De ervaringen tijdens het doorlopen van deze procedure heeft geleid tot een overzicht van formaten waarbij of door het gebruik van open formaten of veel voorkomende (niet open) formaten te verwachten valt dat deze voor minimaal 5 tot 10 jaar geen risico zullen vormen in een beperking van de toegang.

Bovenstaande formaten zijn ieder getest door een proef ingest in Archivematica uit te voeren. Hiernaast is bekeken welke versie wenselijk is en welke niet. Ieder formaat kan namelijk meerdere versies bevatten met daarin soms grote verschillen in de syntaxis en semantiek waarop de informatie vastgelegd wordt. Dit heeft te maken met de doorontwikkeling van een bestandsformaat. Zo stamt het eerste MS Word document (DOC) uit begin jaren 80. Een .doc formaat uit bijvoorbeeld 1983 gemaakt onder MS DOS heeft een andere structuur en codering dan een .doc uit MS Office 2003 vele jaren later. Om risico’s met oudere bestandsversies te voorkomen en doordat de kans zeer klein is dat van een digital born document ouder dan 20 jaar geen papieren versie is, hebben wij gekozen om enkel versies jonger dan 20 jaar toe te staan. Ook al zijn er wel informatieobjecten bij de archiefvormer te vinden van bijvoorbeeld voor 2000 deze zijn dan ook altijd op papier aanwezig. Archieven worden geheel als papier overgebracht indien papier leidend is en dus worden deze oudere digitale bestanden niet overgebracht naar het e-depot. De ervaring bij de aangesloten gemeenten in West-Brabant is dat de eerste volledig digitale archieven pas na circa 2010 gevormd zijn.

Hieronder volgt een overzicht per documenttype met daarin van ieder bestandsformaat welke versie geaccepteerd wordt en de bevindingen en/of nog openstaande vragen. Dit zijn de regels welke op dit moment gehandhaafd worden. Zeer waarschijnlijk zullen de onderstaande resultaten en de lijst van geaccepteerde formaten de komende jaren worden bijgesteld. Zo zal er op termijn ook een mogelijkheid moeten komen voor het archiveren van websites in het e-depot, hiervoor wordt op dit moment geadviseerd gebruik te maken van bestaande web-based oplossingen zoals bijvoorbeeld www.archiefweb.eu. Ook container bestanden en formaten van vak specifieke applicaties zullen we tegen gaan komen, deze zijn vaak moeilijk of enkel met verlies te converteren. Kortom de ontwikkelingen op dit gebied van preservering zullen de komende jaren zeker niet stil blijven staan. Dat maakt dit onderdeel dan ook zo leuk!

Document

PDF enkel acceptatie versies: 1.7 / 1.4: A-1a / A-2a / A-3aDOC acceptatie enkel vanaf doc versie 97

Op te nemen versies: PDF: fmt/276, fmt/95, fmt/354, fmt/476, fmt/477, fmt/478, fmt/479, fmt/480, fmt/481 ODT: fmt/136, fmt/290, fmt/291 DOC: fmt/40, fmt/609 DOCX: fmt/412

Opmerkingen:
Wat te doen met 1.7? Bijlagen en ingesloten objecten kunnen een risico (virus e.d.) vormen. Ontleden, niet accepteren of preserveren met mogelijk verlies. Is er een tool om 1.7 te onderzoeken op risico’s? Let op forum standaardisatie; mogelijk wordt 1.7 van de lijst duurzame formaten afgehaald (eind 2018). Mogelijke oplossing: PDF 1.7 preserveren naar PDF A-3 (ondersteund ook objecten).
PDF document: enkel opname multi-paged documenten, geen versnippering. Anders dient iedere pagina als bestand in de metadata beschreven te worden wat niet wenselijk is

Spreadsheet

XLS accepteren vanaf 2000

Op te nemen versies: PDF-A: zie PDF ODS: fmt/137, fmt/294, fmt/295 XLS: fmt/175, fmt/176, fmt/177, fmt/61, fmt/62 XLSX: fmt/214, fmt/494

Opmerkingen:PDF-A heeft niet de voorkeur voor een spreadsheet vanwege groot risico informatieverlies. Dit als advies meegeven aan de archiefvormer. Indien zowel PDF als origineel aangeleverd, enkel origineel accepteren.
Archivematica controleert niet op wachtwoord beveiliging. Dit dient vooraf te gebeuren door een validatietool voor opname in het e-depot.

E-mail

Op te nemen versies: EML: fmt/278, fmt/950 MSG: x-fmt/430, fmt/1144 PST: fmt/248, fmt/249 MBOX: fmt/720

Opmerkingen:PST & MBOX is mogelijk een risico als containerbestand. Indien aanwezig vergt dit een onderzoek op locatie, kan gebruikt worden indien grootschalige correspondentie m.b.t. een project op deze manier gearchiveerd is mits voorzien van duidelijke metadata.
Email met bijlagen wordt geaccepteerd indien op documentniveau beschreven. Kan ook als één document met twee bestanden of twee documenten met ieder een bestand.

Afbeelding

Op te nemen versies: TIFF: fmt/152, fmt/153, fmt/154, fmt/155, fmt/156, fmt/353, x-fmt/387, x-fmt/388, x-fmt/399 PNG: fmt/11, fmt/12, fmt/13 JPEG: fmt/41, fmt/42, fmt/43, fmt/44 JP2: x-fmt/392 JPX: fmt/151

Opmerkingen:TIFF voorwaarden: on-gecomprimeerd (lossless) enkel single paged images.

Presentatie

Acceptatie enkel versies vanaf circa 2000

Op te nemen versies: PDF-A: Zie PDF ODP: fmt/138, fmt/292, fmt/293 PPT: fmt/126 PPTX: fmt/215

Databank

Databases zijn niet gewenst in het e-depot. Indien aangeboden uit zoeken wat hiermee te doen. Voorlopig Archivematica in te stellen geen acceptatie databases, of enkel acceptatie XML. In gesprek gaan met bijvoorbeeld het Nationaal Archief voor een definitieve oplossing.

Op te nemen versies:Acceptatie XML: fmt 101

Opmerkingen:Onderzoek doen; mogelijke conversie buiten het e-depot naar XML m.b.v. SIARD

Vector

Op te nemen versies: SVG: fmt/91, fmt/92, fmt/413 EPS: fmt/122, fmt/123, fmt/124

Opmerkingen:Overige vector bestanden in overleg, zoals bijvoorbeeld .AI. Indien een ander formaat voorkomt advies converteren naar .SVG.

Audio

Op te nemen versies:WAV: alle versies; fmt/1, fmt/2, fmt/6, fmt/142, fmt/143, fmt/527, fmt/703 t/m 713, fmt/951, x-fmt/389, x-fmt/396, x-fmt/397MP3: fmt/134

Opmerkingen:Bij opname mp3 is het van belang te kijken of dit het origineel is en de kwaliteit te beoordelen op basis van gebruik.AAC (DEN standaard): niet bekend in PRONOM en komt naar verwachting nauwelijks voor, wordt voorlopig geweigerd

Video

Op te nemen versies: MXF: alle versies; fmt/200, fmt/783 t/m fmt/791 MPEG-4: fmt/199 MKV: fmt/569

Opmerkingen:
Ondertitels moeten embedded aangeleverd worden. (opgenomen als laag in het video bestand)In de toekomst mogelijk ondertitels als los bestand (SRT) aanleveren als alternatief.
Enkel conversie naar ander formaat indien afwijkend van voorkeurs- en acceptabel formaat. Advies conversie naar MXF.
Indien ‘lossy’ wordt aangeleverd beoordelen of de kwaliteit voldoende is.
Gebruikte bronnen:


Preserveringsbeleid Nationaal Archief:https://www.nationaalarchief.nl/archiveren/kennisbank/hoe-werkt-preservering#collapse-5883

Lijst open standaarden Forum Standaardisatie:https://www.forumstandaardisatie.nl/open-standaarden

Digital registry PRONOM, The National Archives:http://www.nationalarchives.gov.uk/PRONOM/BasicSearch/proBasicSearch.aspx?status=new

DRIOD: file format identification tool:http://www.nationalarchives.gov.uk/information-management/manage-information/preserving-digital-records/droid/

Reacties

één reactie, 5 december 2018
  • Interessant blog, Paul, met nuttige informatie voor nieuwe versies van de Voorkeursformaten van het Nationaal Archief.

    Remco van Veenendaal

Trefwoorden