In de voorgaande artikelen over data van deelnemende organisaties in het Netwerk Digitaal Erfgoed, waaronder het Nederlands Instituut voor Beeld en Geluid (NIBG) van Data Archiving and Networked Services (DANS), zijn enkele tientallen verschillende bestandsformaten aan bod gekomen. In dit artikel kijken we naar de beschikbare applicaties. Zijn de bestanden nog te openen in duurzaam beschikbare applicaties - worden deze nog goed ondersteund?
We beginnen met de vraag wat “duurzaam beschikbaar” is, voor applicaties. Het gaat bij de risico-inventarisatie van verdwijnende formaten om meer dan alleen de aantallen in een bepaalde digitale collectie. In hoeverre is het formaat eenvoudig te openen en met welke software? Bijvoorbeeld: een handvol HTML-bestanden in een archief levert een laag risico op: de kans is vrij groot dat over twintig jaar het HTML-bestand te openen is zonder vereiste aanvullende software. Het Web heeft een traditie van “backwards compatibility”, een beroemd voorbeeld hiervan is de Space Jam website uit 1996, nog steeds online en te bekijken in moderne browsers. We zoeken naar een vorm van duurzaamheid die in zekere zin in het verlengde ligt van de rol van archieven: optimale beschikbaarheid, voor een zo groot mogelijk bereik aan gebruikers, voor een zo lang mogelijke termijn. Het goede nieuws is alvast: dergelijke initiatieven op software-gebied bestaan en zijn goed toepasbaar.
Dit artikel valt uiteen in twee gedeeltes. Allereerst kijken we naar welke relevante andere projecten er zijn in de preservering van bestanden in relatie tot toepassingen om ze te openen. We behandelen hierin nationale en internationale initiatieven, met als belangrijkste vraag: kunnen we automatisch uit de beschikbare databronnen halen waarmee een specifieke bestandsindeling te openen is? Hoeveel applicaties zijn er bekend die een bepaald formaat ondersteunen en van/tot wanneer waren deze applicaties in omloop? In het tweede gedeelte lichten we een paar bestandsformaten uit om te kijken in hoeverre deze “duurzaam” zijn te openen, op manieren die we daar uiteen zetten.
Gerelateerde initiatieven
Op het gebied van bruikbare applicaties voor bestandsformaten is er al veel verkend. We kijken naar de meest relevante initiatieven die er op dit gebied zijn geweest: de Wegwijzer Voorkeursformaten, de United States National Archives and Records Administration (NARA) Digital Preservation Framework, WikiData Digital Preservation, en tenslotte de United Kingdom National Archives Public Record Office and Nôm 喃 [sic] (PRONOM). Het opvallende “Nôm 喃” in de naam is afgeleid van een historisch Vietnamees schrift, gebaseerd op Chinese karakters. Waar we naar op zoek zijn, is een methode om een specifieke bestandsindeling - zo specifiek mogelijk - te kunnen relateren aan beschikbare software om het mee te openen of te converteren. We nemen de Microsoft Access 95 bestandsindeling als voorbeeld: het is sterk verouderd, de huidige versie van MS Access kan het niet meer openen.
Wegwijzer Voorkeursformaten
Het voornaamste initiatief op het gebied van de borging van digitale bestanden in Nederland is te vinden in de Wegwijzer Voorkeursformaten, een initiatief van het Netwerk Digitaal Erfgoed. Deelnemende organisaties zijn onder meer de Koninklijke Bibliotheek, het Nationaal Archief, het Nederlands instituut voor Beeld en Geluid en een groot aantal andere landelijke en regionale archieven. Het biedt onder meer een stappenplan en een register van bestandsformaten, doorzoekbaar op bijvoorbeeld toepassingsgebied. Alhoewel de wegwijzer van groot belang is in het standaardiseren van formaten voor betere houdbaarheid, legt het minder de nadruk op de vraag welke toepassingen gebruikt worden voor bronformaten. De bestandsformaten in het register van de Wegwijzer zijn ontleend aan PRONOM (zie verderop), waarmee een formatenbeleid op te stellen is door een archieforganisatie met een digitale bestandencollectie. Zo kan het opgestelde beleid stellen dat Access 95 een niet-voorkeursformaat is.
NARA
De National Archives en Records Administration van de Verenigde Staten hebben een project opgezet in de vorm van een risico-inventarisatie van bestandsformaten. Het is voornamelijk een instrument om scores toe te kennen aan bestandsformaten op basis van, bijvoorbeeld, of het formaat een open specificatie heeft of niet. Een belangrijke uitkomst van dit project was een overzichtstabel met risico-scores voor houdbaarheid. Alhoewel veel van de vermelde formaten zijn vernoemd naar de software waarmee het is gemaakt, ontbreekt er een groot aantal “generieke” bestandsformaten. Bij veel bestandsindelingen vernoemd naar een software-pakket biedt het daarnaast geen inzicht in welke andere toepassingen bruikbaar voor de formaten.
WikiData
Wikidata beschikt over een schat aan informatie op het gebied van toepassingen en formaten: het heeft ongeveer 200 duizend toepassingen en ongeveer 14 duizend bestandsformaten geïnventariseerd. De lijst van toepassingen omvat niet alleen gebruikersapplicaties, maar ook toepassingen zoals besturingssystemen en softwarebibliotheken. Wikidata is daarmee met afstand de grootste inventarisatie van data omtrent bestandsformaten en toepassingen. Waarin nog niet is voorzien, is een goede koppeling tussen die twee. De pagina voor de familie van MS Access toepassingen vermeld een lijst van ondersteunde formaten, maar niet welke versie van MS Access het MS Access 95 formaat ondersteunt. De pagina voor het MS Access 95 formaat toont wel een hoop bruikbare andere informatie, waaronder een link naar PRONOM. Kortom: het is op het moment van schrijven van dit artikel lastig te weten welke software versie aan welke bestandsformaatversie te koppelen is.
PRONOM
De National Archives van het Verenigd Koninkrijk heeft een omvangrijk project gestart om inzicht te bieden in bestandsformaten en toepassingen. Een uitgebreide set aan gereedschappen stelt niet alleen in staat om bestandsindelingen te identificeren, maar ook een index van formaten en toepassingen. Het vermeld het MS Access 95 formaat bijvoorbeeld met een PRONOM universal identifier (PUID) die terug te vinden is in de WikiData toegang voor dit formaat: “x-fmt/238”. De hamvraag is hier op welke manier een dergelijke bestandsindeling te relateren is aan software die het kan openen: een recente installatie van MS Access kan dat namelijk niet. Helaas is PRONOM hier nog niet zo ver: het vermeld alleen MS Access 2000, met een link naar het ondersteunde MS Access 2000-format. Al met al: PRONOM komt ver met het relateren van bestandsformaten aan ondersteunde software, maar we zijn er nog niet. Een andere kleine horde is dat de PRONOM website zeer geschikt is voor menselijke “consumptie”, maar dat je moet weten hoe je machine-leesbare toegang tot de data krijgt. De XML-representaties van formaten geven echter zeer gedetailleerde en bruikbare metadata (zie voorbeelden in de “Verder speuren” sectie onderaan).
Gerelateerd werk: een tussentijdse conclusie
Er zijn veel bruikbare en waardevolle gereedschappen ontwikkeld door onder meer WikiData, NDE, en de Nationale Archieven van de Verenigde Staten en het Verenigd Koninkrijk, maar geen van deze gereedschappen stellen ons momenteel in staat om als “generieke tool” kwantitatief onderzoek te doen naar de ondersteuning van willekeurige bestandsindelingen. Er is ofwel nog niet genoeg data beschikbaar (PRONOM), of de koppelingen tussen specifieke formaten en software is nog niet gelegd (WikiData). Daarnaast is er nog een gebrek aan tooling: er zijn nog weinig zoek-interfaces die het eenvoudig maken om machine- én menselijk leesbare identificaties te doen. In de meest ideale vorm is er een webapplicatie beschikbaar waarin een bestand te slepen is, die eerst de identificatie van het bestandstype doet (een web-versie van DROID, als het ware), om daarna een lijst van bijbehorende applicaties aan te bieden.
Toepassingen voor duurzame toegang
In dit tweede deel van het artikel gaan we in op een aantal bestandsformaten die we in de voorgaande analyses van het NIBG en DANS hebben aangetroffen. We zetten uiteen wat de ideale omstandigheden zijn om oude bestandsformaten te openen en welke huidige toepassingen bruikbaar zijn om ze mee te openen, gegeven deze omstandigheden.
Maximale versie-beschikbaarheid
Een maximale beschikbaarheid van eerdere versies van software voor ondersteuning van oude formaten staat voorop. Het komt voor dat recente versies van software geen ondersteuning meer biedt voor in oude versies van de bestandsformaten die voor deze software ontworpen is. De vervallen ondersteuning voor versie 97 van Microsoft databases in recente Access versies is hiervan een voorbeeld. Er is een systeem nodig dat functioneert als een archief: waarin alle voorgaande “releases” van software zijn op te vragen en te gebruiken.
Minimale licentie-administratie
Veel software dient geregistreerd te worden met een licentiesleutel, vaak via een speciaal daartoe ingerichte licentie-service. Op het moment dat oude versies van software worden afgeschaft, kan het zo zijn dat licenties voor deze verouderde versies niet meer worden afgegeven, of dat de licentieserver niet meer beschikbaar is. Licenties moeten daarom zo min mogelijk in de weg staan van het installeren van oude versies van software. Een zogenaamde “vendor lock-in” kan er bovendien voor zorgen dat software-fabrikanten exorbitante bedragen kunnen vragen op het moment dat ze de enige zijn die toegang bieden tot een bestandsformaat - het is duidelijk dat dit zoveel mogelijk voorkomen moet worden.
Minimale emulatie
De wens is voor een minimum aan afhankelijkheid van oude besturingssystemen, waarop software ondersteund wordt. Stel: een WordPerfect versie is niet meer installeerbaar op de huidige versie Windows - dan dient er een virtuele machine gestart te worden met een oud besturingssysteem, wat een aanzienlijke tijdsinvestering kan kosten. Nu is er op emulatie-gebied enorm veel beschikbaar, een keur aan oude hardware- en software platformen inclusief Commodore 64-machines zijn te “emuleren” op moderne systemen. Veel oudere systemen zijn zelfs in een webbrowser te gebruiken, zoals de eerste generatie Apple MacIntosh. Archive.org biedt een aantal dergelijke online emulators aan, ook het Software Preservation Network geleid door Yale University werkt aan een initiatief om emulatiesoftware als een online service aan te bieden. Hoe mooi deze mogelijkheden ook zijn (zeker voor een retro-computing liefhebber), toegankelijker is het voor een archief om hiervan niet afhankelijk te zijn, vanwege een paar zeer kennisintensieve voorvereisten. :
Het vereist kennis van de geëmuleerde besturingssystemen én de software om de bestanden mee te openen. Hoe gebruik je eigenlijk Mac OS 6? Welke menu’s moet je gebruiken om een programma te vinden?
Het vereist kennis van welke combinatie van besturingssysteem en software nodig is.
Veel emulatorsystemen maken het niet noodzakelijkerwijs eenvoudiger om data te exporteren. Als het bestand eenmaal te openen is in de emulator, hoe krijg je de data dan over naar een modern systeem?
Opensource software
De strekking van deze aanbevelingen is dat in archivarische context het raadzaam is om zoveel mogelijk gebruik te maken van formaten die met opensource software te openen zijn, en zoveel mogelijk opensource software te benutten voor lezen en conversie. Dit houdt niet per se in dat al deze formaten zelf open specificaties of standaarden hoeven te zijn - “proprietary” formaten zoals het DOC-formaat zijn prima te openen en te converteren met opensource software zoals LibreOffice. Opensource software komt in veel gevallen aan vrijwel alle bovenstaande vereisten tegemoet. Er is over het algemeen sprake van een absoluut minimum aan licentie-hordes. Opensource software wordt meestal opgeslagen in een open code repository zoals GitHub, SourceForge of GitLab zodat, oudere versies van de software beschikbaar blijven. Veel opensource software is verkrijgbaar als release voor zowel Linux, Mac en Windows, iets waarmee we rekening houden in de bespreking van bestandsformaten hieronder.
In de beschikbaarheid van software voor bestandsformaten beoordelen we hier uitsluitend multi-platform opensource toepassingen die veel tractie hebben en die actief onderhouden worden. Dit is geen oncontroversiële keuze: in een aantal gevallen kan het zijn dat er echt betere betaalde toepassingen beschikbaar zijn voor het vervaardigen van bestanden van een bepaalde bestandsindeling. Het openen en converteren van deze bestandsindelingen kan echter beter zo min mogelijk gehinderd worden door “vendor lock-ins”, dure software of complexe licentie-aangelegenheden.
Een paar formaten uitgelicht
Om de beschikbaarheid van open source applicaties te onderzoeken, hebben we een aantal bekende en minder bestandsformaten geplukt uit de voorgaande archief-analyses. Het gaat om een vijftal functionele gebieden: afbeeldingen, tekst, audiovisueel, geografisch (geo) en tabeldata (tabulair).
Afbeeldingen
Veruit de meeste bestanden in de geanalyseerde archieven, bestaan uit afbeeldingsbestanden, met slechts twee grote hoofdtypen van bestandsindelingen: TIFF en JPEG.
Vanwege de grote verspreiding van afbeeldingen is er veel open source software beschikbaar voor afbeeldingsformaten, op alle mogelijke besturingssystemen: de behoefte aan afbeeldingssoftware is vrijwel universeel. Toepassingen zoals GIMP kunnen de bestanden openen en bewerken, met een programma als ImageMagick zijn ze via de command line te converteren in batch-verwerking. Deze beide genoemde toepassingen zijn multi-platform. Dat betekent niet dat bepaalde bestandsformaten geen uitdagingen kennen in de beschikbaarheid.
JPEG is weinig problematisch, maar een prominent figurerend bestandsformaat is hier het TIFF-format. Het bestandstype TIFF is vooral problematisch omdat het een flexibel container-format is, met vele mogelijke “subtypen” voor verschillende doeleinden met specifieke vereisten aan ondersteunende software. Ik heb hier het GeoTIFF-format specifiek uitgelicht, aangezien het een bekende is in de geo-wereld. Ondanks dat GeoTIFF een open standaard is, is er enige kennis uit geo-hoek vereist om te weten dat een GeoTIFF-bestand überhaupt een GeoTIFF-bestand is, vaak zegt de bestandsnaam weinig over het feit dat het bestand extra metadata bevat die cruciaal is voor het plaatsen van de afbeelding ergens op de aardbol.
Met achtergrondkennis in geo is GeoTIFF voor de auteur van dit artikel een bekend gegeven, maar er zijn nog zeker negen andere “subtypen” en versies van TIFF voor andere domeinen, en waarvan niet geheel duidelijk is welke gespecialiseerde software ze vereisen om alle (meta)data te extraheren. Naar mijn mening is het daarom beter een vervangend equivalent formaat te gebruiken dat recht doet aan de volledige reproductie van de inhoud van de originele TIFF. Opvallend hierin is dat TIFF een voorkeursformaat met hoge houdbaarheidsscore heeft, ook in de NARA risico-analyse, terwijl het identificeren van het juiste subtype TIFF lastig kan zijn - gereedschap zoals DROID is vereist om het correct te identificeren. Voor het specifieke GeoTIFF-subformat hebben we dit geprobeerd - het wordt inderdaad correct geïdentificeerd.
Tekst
Een aanzienlijk deel van de behandelde bestandsformaten valt onder de noemer “ongestructureerde tekst”. Hieronder verstaan we bestandsindelingen die lopende tekst bevatten, eventueel gecombineerd met ingebedde afbeeldingen of andere media. We bespreken hier een aantal veel voorkomende formaten.
Zoals we in de DANS-analyse hebben gezien, is het DOC-formaat duidelijk op z’n retour. De versies van MS Office die dit formaat produceren, zijn nauwelijks meer in omloop en vrijwel iedereen gebruikt het opvolgformat DOCX. De ondersteuning voor DOC is nog groot, maar het kan raadzaam zijn om erover te denken om dit naar een open formaat te converteren, zoals ODT of PDF/A. Een representatieve steekproef is nodig om te controleren of de gehele indeling van het DOC-bestand goed wordt geconverteerd.
PDF als tekstformaat is een speciaal geval. We hebben al eerder in het artikel over de aanpak van dit project aangestipt dat er nogal wat verschillende sub-specificaties van PDF zijn, om van de verschillende versies van het PDF-format nog maar niet te spreken. Van ieder gearchiveerd PDF-bestand zou dus minimaal bekend moeten zijn in welke subindeling en welke versie het bestand is opgeslagen. Dit zou eigenlijk allemaal PDF/A moeten zijn, aangezien deze specificatie het bijvoorbeeld onmogelijk maakt om het bestand met een wachtwoord onleesbaar te maken. Ook hier is DROID van belang om het subtype goed te identificeren.
Audiovisueel
De audiovisuele formaten zijn vooral veel in gebruik bij het NIBG.
Voor de audio-formaten is er weinig aan de hand: de MP3- en WAV-formaten worden breed ondersteund en zijn duidelijk gespecificeerd. Voor wat betreft de video-formaten ligt het wat minder eenvoudig: vooral het MXF-format is vooral in gebruik in professionele kring, en de indeling is, net als bij TIFF, een containerformat dat een keur aan sub-formaten ondersteunt waarvan moeilijk te garanderen is dat deze allemaal over enkele tientallen jaren nog leesbaar zijn. Zo lang duidelijk is dat de opgenomen MXF-bestanden enkel open video-encodingstandaarden bevatten waarvoor open broncode beschikbaar is, is het risico waarschijnlijk klein.
Geo
Voornamelijk DANS heeft te maken met geo-specifieke bestandsformaten, aangezien veel data in archeologische veldtekeningen wordt opgeslagen in dergelijke indelingen.
De verwachting is dat Shapefile (SHP) nog lang in omloop zal zijn, maar dat MapInfo TAB bestanden langzaam maar zeker het veld zullen ruimen. Er zijn goede vervangende formaten in opkomst, zoals de open GeoPackage-standaard die goed als bronformaat én als preferred format bruikbaar is. Opvallend genoeg ontbreekt dit formaat nog in het overzicht van voorkeursformaten voor geo.
Tabulair
Vrijwel alle archieven hebben te maken met databestanden in een of andere tabulaire vorm. Vanwege het gebruiksgemak is de meest gebruikte vorm over het algemeen in spreadsheets, in vergelijking met complexere maar beter structureerbare data zoals databases.
Het MDB-formaat hebben we hierboven al uitgebreid besproken. Het is, zo is de consensus onder de Preservation Watch leden, een belangrijke kandidaat om een migratietraject te ondergaan. Om dit artikel beknopt te houden - en na het MDB format uitgebreid te hebben behandeld - doen we geen uitgebreide analyse van de verschillende XLS, XLSX en ACCDB formaten, subformaten en -versies hier.
Conclusie
In dit artikel zijn we ingegaan op de toepassingenkant als belangrijk houdbaarheidsaspect van digitale bestanden. We hebben dit via twee benaderingen gedaan: ten eerste via de vraag welke informatie er op het Web beschikbaar is om te weten te komen met welke software-versies een specifiek bestandsformaat te openen is. De conclusie hiervan is dat er veel goede initiatieven zijn ontplooid die een eind hierin komen, maar dat er nog wat werk te verzetten is voordat een willekeurig bestand te koppelen is aan één of meer software versies.
Ten tweede hebben we naar een aantal gangbare formaten gekeken die we zijn tegengekomen in de eerdere archiefanalyses, vrijwel alle bestanden zijn nog goed met opensource applicaties te openen, al zijn er voldoende formaten met dusdanig veel verschillende specificatie-versies en subformaten dat lastig te zeggen is of alle varianten goed te openen zijn. Een beperkende factor hierin is dat we in deze serie analyses niet in bestanden hebben gekeken naar details van de bestandsspecificaties zelf, maar dat we de ons nu beschikbare bestandsmetadata hebben geanalyseerd, vooral op bestandsnaam-extensies en MIME/IANA types. Het is daarom raadzaam om een inhoudelijke analyse te doen naar de specifieke bestand-subtypes voor alle digitale archieven en de PUID en/of de WikiData bestandstype-identifier op te nemen in de metadata-databases van deze archieven. Open source gereedschappen zijn hiervoor beschikbaar en met specifiekere bestandsmetadata zijn fijnmaziger risico-analyses uit te voeren, met gerichtere migratie-trajecten.
Verder speuren
Voor diegenen die zich verder willen verdiepen in bestandsformaten en applicatieversies:
© 2022 CC-BY-SA-4.0 Rein van ‘t Veer/Netwerk Digitaal Erfgoed
Afbeelding bovenin: © 2022 CC-BY-SA-4.0 auteur, bewerkt van https://www.thingiverse.com/thing:1614896 en https://svgsilh.com/image/38114.html
Reacties
De link naar (de github-omgeving van ) Nara werkt niet.
@mathevandervelden
Dank @mathevandervelden, NARA blijkt de bestanden periodiek te vervangen, met een timestamp in de bestandsnaam. Heb de link vervangen met eentje naar de map waarin de bestanden staan. Goed opgemerkt!