BPRECISE : Benchmarking PREservation in a Common InfraStructurE
On June 7 and 8 2017, the General Annual Meeting of the Open Preservation Foundation was held at the N...
Overheidsorganisaties sluiten hun systemen aan op het e-Depot. De digitale informatie uit die systemen wordt vervolgens in het e-Depot bewaard. Vaak gaat het hierbij om een specifiek, afgesloten archief, een zaak, proces of systeem met een bepaalde looptijd. De Serviceorganisatie van het Nationaal Archief (NA) begeleidt de complexere aansluitingen, en de uitvoering start dan altijd met een impactanalyse. In de impactanalyses onderzoeken we samen – deskundigen uit diverse NA-afdelingen en vertegenwoordigers van de leverancier – welke organisatorische, inhoudelijke en technische maatregelen nodig zijn voor de aansluiting. De resultaten van de impactanalyses zijn input voor een projectplan voor de daadwerkelijke aansluiting.
Tot het organisatorische behoren de projectplanning, contractafspraken, communicatie, en het relatiemanagement. Technisch is een aantal maatregelen nodig om van koppelvlakken en het e-Depot gebruik te kunnen maken. Ten behoeve van de goede, geordende en toegankelijke staat van de archieven, onderzoeken we ook de inhoud van de digitale informatie.
In deze blog leggen we uit welke onderwerpen we momenteel bespreken tijdens het preservationgesprek, en hoe preservationtools het gesprek ondersteunen. Doel van het gesprek is redelijkerwijs te bepalen welke impact de digitale informatie gaat hebben op de preservationwerkzaamheden van het NA. Het kan voorkomen, dat bepaalde issues moeten worden opgelost voordat een leverancier kan aansluiten op het e-Depot. We blikken kort terug op de eerste resultaten. Detailinformatie over specifieke analyses bewaren we voor latere blogs. De Engelstalige versie van dit blog is hier te vinden: http://openpreservation.org/blog/2017/05/17/preservation-impact-assessments-how-preservation-tools-support-naneths-connection-projects/.
In het onderdeel inhoud nemen we onder de noemer preservation de digitale informatie onder de loep – in praktijk meestal computerbestanden. De analyse begint met een gesprek naar aanleiding van de onderstaande vragen:
In hoeverre betreft het informatiesoorten met extra impact op preservation? Databases, software en GIS-bestanden zijn doorgaans een grotere uitdaging dan PDF-bestanden.
In hoeverre wijken de bestandsformaten af van de NA-voorkeursformaten? Hoe meer bestandsformaten afwijken van de beschreven voorkeursformaten, hoe meer moeite het kost ze te preserveren, beschikbaar te stellen en om in alle daarvoor benodigde kennis te voorzien.
In hoeverre bevat de set bestanden met veel of ongebruikelijk (interactief) gedrag? Denk hierbij aan formules of macro’s in MS Excel, stored procedures in een database of hyperlinks of actieve koppelingen in en tussen documenten.
In hoeverre bevat de set versleutelde bestanden (encryptie)? Bij voorkeur ontvangen we geen versleutelde bestanden, of minstens de sleutel.
In hoeverre bevat de set digitale handtekeningen waarbij de rechtsgeldigheid van de handtekening nog relevant is Digitale handtekeningen prolongeren we als dat juridisch noodzakelijk is. Doorgaans biedt (de metadata van) het e-Depot echter voldoende waarborgen voor het aantonen van de authenticiteit en integriteit van documenten.
In hoeverre vindt migratie/conversie in de bronomgeving plaats, en hoe wordt de kwaliteit gemeten? Zie Archiefregeling, artikel 25, lid 2.
Ter ondersteuning van het gesprek analyseren we een representatieve dataset door preservationtools. Hierdoor leren we onder andere of de bestandsextensies en de extensie-informatie uit de metadata van het bronsysteem overeenkomen met het door de tools gevonden bestandsformaten, in hoeverre de bestandsformaten valide en welgevormd zijn, of er encryptie/wachtwoordbeveiliging is toegepast, en in hoeverre de tools kunnen helpen bepaalde (datum)metadata aan te zuiveren. De tools worden niet gebruikt bij het onderwerp migratie in de bronomgeving.
De tools die we gebruiken zijn de File Information Tool Set (FITS), ontwikkeld en beheerd door Harvard University, en Clever, Crafty, Content Profiling of Objects (c3po). C3po werd in het kader van het SCAPE-project ontwikkeld door de Technische Universiteit Wenen, en werd doorontwikkeld in het project Benchmark-DP.
FITS “identifies, validates and extracts technical metadata for a wide range of file formats. It acts as a wrapper, invoking and managing the output from several other open source tools.” (http://projects.iq.harvard.edu/fits/introduction)
C3po “is a software tool, which uses meta data extracted from files of a digital collection as input to generate a profile of the content set.” (http://peshkira.github.io/c3po/ [SCAPE] of https://github.com/datascience/c3po [Benchmark-DP])
Op de websites van FITS en c3po staat hoe de software geïnstalleerd moet worden en werkt. Vooral FITS is een product. C3po is uitdrukkelijk een prototype. Desondanks biedt C3po een nuttige, laagdrempelige webinterface en exportmogelijkheden. De tools moeten echter primair vanaf de command line uitgevoerd worden. Het installeren van de tools en de software-afhankelijkheden, en het werken met de command line, vereist specifieke ICT-kennis. Als NA werken we met (steeds de meest recente versie van FITS en) de SCAPE-versie van c3po.
Eerst gebruiken we FITS en c3po op de command line om een profiel van de representatieve dataset te maken. Vervolgens kiezen we die set in de webinterface van c3po. We kunnen dan aan de hand van grafieken een beeld krijgen van het profiel van de dataset: hoeveel bestanden van welk(e) bestandsformaat(versie) zitten in de dataset, in hoeverre zijn die bestanden welgevormd en valide, en wanneer werden de bestanden aangemaakt en voor het laatst gewijzigd? Wat er verder met c3po mogelijk is, wordt uitgelegd in de filmpje op de c3po-website (https://youtu.be/6KibTpdxQBs).
De grafische informatie van c3po zorgt voor een goede eerste indruk van de dataset. Het tot in detail bekijken van alle informatie kost echter veel muisklikken. Het is daarom nuttig dat de informatie van c3po (geheel of gedeeltelijk) als kommagescheiden bestand geëxporteerd kan worden. In Microsoft Excel of LibreOffice Calc kunnen we vervolgens eigen analyses uitvoeren en/of grafieken maken. Als NA zetten we bijvoorbeeld aan de hand van een Excelformule de bestandsextensie van de bestanden naast de naam van de door de tools gevonden bestandsformaten. Hierdoor zien we in één oogopslag in hoeverre de bestanden (volgens de tools) zijn wat ze (via hun extensie) zeggen te zijn.
We gaan hier kort en aan de hand van de gespreksonderwerpen in op wat je uit de informatie van (FITS en) c3po kunt concluderen.
C3po vertelt niet specifiek wat voor soorten informatie er in de geanalyseerde bestanden staan, en of ze bepaald gedrag vertonen. Wel geeft de informatie over bestandsformaten een redelijke indruk. Zijn het vooral tekstbestanden (PDF, DOC, ODF, etc.), of ook databases, software of GIS-bestanden? Datasets met vooral de informatiesoorten tekstbestanden en afbeeldingen hebben een lage preservationimpact, terwijl bijvoorbeeld databases en software bepaald (interactief) gedrag vertonen, en lastiger te preserveren zijn.
Open bestandsformaten, of veelgebruikte en goed ondersteunde, resulteren (in de toekomst) in minder preservationimpact dan gesloten en/of weinig gebruikte bestandsformaten. De aantallen bestandsformaatversies die de tools herkennen, helpen bij het prioriteren van preservationacties en/of de noodzaak om (nieuwe) kennis op te doen. Ook kan de leverancier geadviseerd worden meer met open bestandsformaten te gaan werken.
Als de bestandsformaten bekeken worden, dan is het verstandig te controleren of de bestanden welgevormd en valide zijn. Welgevormdheid heeft te maken met de vorm (syntax), en validiteit met de inhoud (semantiek). Bijvoorbeeld bij XML-bestanden is sprake van welgevormdheid, als ze voldoen aan een aantal criteria, zoals het correct openen, sluiten en nesten van tags. Bij XML-bestanden is sprake van validiteit, als de inhoud voldoet aan een document type definition, die bijvoorbeeld bepaalt welke tags in het XML-bestand mogen staan, en welke informatie er in kan staan (tekst, cijfer, datum, etc.).
Hoewel niet voor alle bestandsformaten, kunnen de tools informatie verstrekken over eventuele encryptie of wachtwoordbeveiliging. Encryptie en wachtwoordbeveiliging compliceren de toegang tot de informatie in de bestanden, en zouden normaal gesproken bij overbrenging naar het NA verwijderd moeten worden. Als er sprake is van specifieke toegangsrechten, dan regelt het toegangsrechtensysteem van het e-Depot dat, niet de encryptie van of wachtwoordbeveiliging op individuele bestanden.
De tools leveren informatie op over de creatie- en modificatiedatums van bestanden. Door deze informatie te vergelijken met datuminformatie uit de metadata van het bronsysteem, kunnen problemen gesignaleerd worden. Zijn de datums die de tools vinden gelijk aan de datums uit de metadata? In hoeverre zijn er bestanden die ruim voor alle andere bestanden aangemaakt, of juist ruim na alle andere bestanden nog gewijzigd zijn? Als er problemen geconstateerd worden, kan de informatie van de tools gebruikt worden bij het oplossen van die problemen.
Verschillende tools achterhalen op verschillende manieren de creatie- en modificatiedatums van bestanden. Ze zijn het daarom soms niet eens. Alleen al daarom moeten inhoudelijke deskundigen de toolinformatie controleren, en een weloverwogen besluit nemen over welke informatie ‘juist’ is. Een andere reden is dat een creatiedatum bijvoorbeeld gebaseerd kan zijn op de creatiedatum van een sjabloon of een hergebruikt bestand, waardoor het bestand veel ouder kan lijken dan het was geweest wanneer als nieuw bestand was aangemaakt.
Wat leveren de impactanalyses op? In ieder geval veel kennis over wat er aan digitale informatie op het NA afkomt. Naast dat we vragen om een representatieve dataset, vragen we ook om een overzicht van de aantallen bestandsformaten in het bronsysteem. Dit helpt bij het beoordelen van de representativiteit van de dataset, en levert een schat van informatie op over wat er in de toekomst nog op ons af gaat komen: een grote hoeveelheid bestanden in een beperkte set formaten die redelijk overeenkomen met de NA-voorkeursformaten, en daarnaast een flinke ‘long tail’ aan overige formaten.
Bij de impactanalyses blijken bestanden niet altijd te zijn wat ze zeggen te zijn. In een van de impactanalyses bleek een aantal bestanden met een .pdf-extensie door de tools herkend te worden als Wordbestand. Handmatige controle bevestigde dit, en de leverancier kon hierdoor tijdig – voor het daadwerkelijke aansluitproject – de oorzaak onderzoeken en het probleem oplossen.
Wat de impactanalyses ook aantonen, is dat de computer de mens nog niet kan vervangen. Handmatige controle bleek bij de bestandsextensies al nodig. Ook de welgevormdheids- en validiteitscontrole vereist menselijk handelen. FITS maakt gebruik van de tool JHOVE, die van bestandsformaten de welgevormdheid en validiteit kan controleren. JHOVE is ook in het e-Depot geïntegreerd, en doet zijn werk bijvoorbeeld tijdens ingests. Nadere analyse van eventuele problemen die tools als JHOVE signaleren is nodig. Soms moeten de problemen worden opgelost, soms blijken ze bij nadere inspectie geen significante preservationimpact op te leveren, en heel soms zijn de opgemerkte problemen het resultaat van een bug in de software. Deze analyse is arbeidsintensief. Het NA staat gelukkig niet alleen. Naast dat we via de kennisplatforms in contact met deskundigen buiten het NA staan, zijn we lid van en werken we samen met de Open Preservation Foundation (OPF, openpreservation.org). De OPF onderhoudt een webpagina met JHOVE issues and error messages, heeft een forum voor preservationvragen en een Document Interest Group (DIG). De leden van deze DIG werken o.a. aan een wiki met een overzicht van en uitleg over foutmeldingen waar je in de preservationpraktijk tegenaan kunt lopen, zoals PDF-validatiefouten.
Bij de impactanalyses zijn nog geen problemen ontdekt met encryptie of wachtwoordbeveiliging van documenten. Wel ontdekten we dat hier sprake kan zijn van een grijs gebied. Sommige PDF-bestanden hebben namelijk specifieke, met een wachtwoord beveiligde permissies. Je mag de bestanden wel openen en printen, maar bijvoorbeeld niet veranderen of van commentaar voorzien. Vooral de restrictie dat content copying verboden is (kopiëren en plakken van de inhoud) viel ons bij een impactanalyse op. We onderzoeken in hoeverre deze restrictie bij eventuele toekomstige preservationacties (zoals migratie) roet in het eten kan gooien.
Het voorgenoemde geval van onjuiste bestandsextensies is een voorbeeld van hoe impactanalyses kunnen resulteren in issues die voorafgaand aan de daadwerkelijke aansluiting moeten worden opgelost. Een ander voorbeeld gaat over datums. Zo bleek bij een van de impactanalyses, dat in de metadata van het bronsysteem de creatiedatums van alle bestanden gelijk waren. Dit bleek de datum te zijn waarop de bestanden uit een oud documentbeheersysteem naar een nieuw systeem waren overgezet. Met behulp van de datuminformatie van de tools konden de inhoudelijke deskundigen de metadata aanzuiveren.
De tools FITS en c3po leveren nuttige, objectieve informatie over de meer technische aspecten van digitale informatie - bestanden. Deze informatie is een welkome aanvulling op de impactanalysegesprekken over het onderwerp preservation, en op de impactanalyses in het algemeen. Voortschrijdend inzicht levert steeds meer kennis en betere impactinschattingen op, maar nu al hebben de impactanalyses gezorgd voor een betere start van aansluitprojecten. Daarnaast weten we beter hoeveel en welke digitale informatie op ons af komt, en waar we in de toekomst rekening mee moeten houden.