Acceptatie PDF 1.7

  • mei 2018
  • Verwijderde gebruiker
  • ·
  • Aangepast jun 2024
  • 2
  • 115
Verwijderde gebruiker
Preservation Digitaal Erfgoed
  • Pepijn Lucker

Het e-depot van het West-Brabants Archief en het Regionaal Archief Tilburg wil zich zoveel mogelijk houden aan het preserveringbeleid van het Nationaal Archief / forum standaardisatie. Hierbij worden enkel voorkeurs- en acceptabele formaten geaccepteerd.

Eén van de acceptabele formaten is PDF versie 1.7. Dit is een PDF formaat welke ingesloten objecten kan bevatten zoals bijlagen, audio, video enz. Wij hebben geconstateerd dat deze versie zo nu en dan gebruikt wordt voor archivering van e-mail.

Archivematica is op dit moment zo ingeregeld dat een 1.7 opgenomen wordt en hiernaast als 1.4 gepreserveerd. Echter verlies je met deze conversie de bijlagen. Nu kunnen we 1.7 wel accepteren en beschikbaar stellen echter is dit niet bevorderlijk voor de ontsluiting gezien niet alle objecten gemetadateerd zijn en dus niet makkelijk terug te vinden. Hiernaast kan bijvoorbeeld een e-mail een virus of (gevaarlijk) executable bestand bevatten wat dus in het e-depot wordt opgenomen, wat een groot risico kan vormen.

Mijn vraag, hoe hier mee om te gaan? We kunnen aangeven deze niet te accepteren, echter indien deze al gevormd zijn door gemeenten wat kunnen we hier dan mee? Zijn deze te 'ontleden' in losse PDF bestanden met een tool, of is er een tool welke de inhoud van het bestand kan screenen op risico's? Kortom hoe kijken jullie hier tegen aan en wat voor mogelijke oplossingen zijn er te bedenken?

Met vriendelijke groet,

Paul

Reacties

2 reacties, meest recent: 19 juni 2018
  • Hoi Paul,

    Dank voor je interessante vraag. Hij was er helaas even doorheen geglipt maar ik zal een poging doen om asnog een antwoord te geven.

    Allereerst hebben we (Nationaal Archief) in 2016 PDF v1.7 opgenomen in onze lijst van acceptabele formaten, voor de informatiesoort 'tekstdocumenten'. NB: dus niet voor e-mails. De onderbouwing was destijds: "PDF 1.7 is opgenomen op de ‘pas-toe-of-leg-uit’ lijst met open standaarden van Forum Standaardisatie, voor het uitwisselen en publiceren van niet- of beperkt-reviseerbare documenten, waarbij duiding van oorsprong of functierijkheid onderdeel zijn van het document en waarbij PDF/A-1 als standaard niet kan worden ingezet. PDF 1.7 is een open standaard en is door ISO en NEN genormeerd als ISO 32000-1:2008." We volgen dus zoveel mogelijk het Forum Standaardisatie. Momenteel loopt bij het Forum een review m.bt. de pdf-standaarden op de pas-toe-of-leg-uit lijst. Het is onzeker of PDF v1.7 op deze lijst zal worden gehandhaafd. In de tweede helft van 2018 willen we de NA voorkeursformaten bijwerken. Mede afhankelijk dus van de review bij het Forum, kan PDF v1.7 ook van onze lijst worden gehaald.

    Maar daarmee heb je de vraag m.b.t. de de objecten in een bestaande PDF v1.7 pdf's niet opgelost. Daarvan hebben we er een klein aantal van in onze collectie. Wij gebruiken momenteel geen speciale tooling om objecten uit een PDF te halen. Een tip: kijk eens naar XPDFReader (“extracts PDF metadata .. extracts raw images from PDF files .. lists fonts used in PDF files .. extracts attached files from PDF files”) of PDFbox. Misschien bevatten die de functionaliteit die je nodig hebt. Screenen op virussen lijkt me iets voor een goede virusscanner.

    Tot slot een wedervraag: je schrijft "Archivematica is op dit moment zo ingeregeld dat een 1.7 opgenomen wordt en hiernaast als 1.4 gepreserveerd. Echter verlies je met deze conversie de bijlagen." Waarom is hiervoor gekozen? En kan dat niet anders, bijvoorbeeld een conversie naar een andere PDF(A?) versie waarbij je de ingesloten objecten niet kwijtraakt?

    Hartelijke groet, Pepijn

    Pepijn Lucker
  • Bedankt Pepijn voor je reactie, duidelijk ook dat 1.7 niet gewenst is voor e-mail archivering. Met de aangegeven tools kunnen we gaan experimenteren. Uiteraard is de insteek al bij creatie van informatieobjecten of de inrichting van een beherend systeem mee te kijken bij de archiefvormer om te voorkomen dat allerlei ingewikkelde conversies achteraf uitgevoerd moeten worden. Vreemd ook dat enkele scanapparatuur toch kiest voor een ingesloten PDF 1.7 waardoor ook 'platte' documenten soms in dit formaat opgeslagen wordt.

    Archivematica heeft vanuit de basis een aantal standaard normalization rules. Deze zijn door de leverancier (Artefactual) ingeregeld. Eén hiervan is het preserveren van een PDF 1.7 naar PDF/a-1. Zoals je aangeeft zou dit ook mogelijk anders kunnen. In PRONOM is te zien dat bijvoorbeeld PDF/a-3 de mogelijkheid biedt om ook andere bestandsformaten te embedden in het PDF brondocument. Deze mogelijkheid zouden we moeten testen voor alles wat tot nu toe gevormd is. Het beleid vanaf nu zou dan wel moeten zijn dat e-mail niet als PDF maar EML of MBOX gearchiveerd wordt. Mocht je nog een aanvulling hebben hoor ik het graag.

    Met vriendelijke groet,

    Paul

    Verwijderde gebruiker

Trefwoorden