Monitoring van bestandsformaten 4: formaten in gebruik bij Data Archiving and Networked Services (DANS)

  • dec 2022
  • Rein van 't Veer
  • ·
  • Aangepast 28 jun
  • 45
Rein van 't Veer
Preservation Digitaal Erfgoed

Samenvatting

Dit artikel is de vierde van de serie over het monitoren van verouderende bestandsformaten. Het vorige artikel vind je hier, het volgende hier. Is te voorspellen welke bestandsformaten in onbruik dreigen te raken? Dit project maakt onderdeel uit van het NDE-programma Preservation Watch en Preferred Formats.

EDIT: Na de aankondiging op LinkedIn is er een aanpassing gedaan aan de analyse, op basis van de suggestie van Erwin van der Klooster, waarvoor onze dank. We hebben de bestandstellingen voor de periode 2020-2022 uitgesloten, omdat voor deze de tweejaars-termijn voor het aanleveren van archeologische bestanden nog niet geldt. Dit leidt tot incomplete tellingen, dus vandaar de correctie.

De organisatie Data Archiving and Networked Services (DANS) heeft, als onderdeel van de Koninklijke Nederlandse Akademie van Wetenschappen, een belangrijke taak: het archiveren van onderzoeksdata, met name op het gebied van de Geesteswetenschappen. Sinds jaar en dag is het het primaire archiveringsplatform voor de Nederlandse archeologie: het deponeren van onderzoeksdata afkomstig uit archeologisch veldwerk en de uitwerking hiervan is zelfs een wettelijke verplichting. DANS speelt daarom een rol van onschatbare waarde voor het Nederlands cultureel erfgoed.

Als ontvanger van data van vele verschillende organisaties, herbergt het digitaal archief van DANS een grote verscheidenheid aan bestandsformaten - een mooie use case voor analyse in het kader van het project rondom de monitoring van bestandsformaten bij Nederlandse archieven. We gaan kort in op de gebruikte data en de methodiek om deze te verzamelen, om daarna een selectie aan aangeleverde bestandsformaten te behandelen die we kunnen aanwijzen als afnemend in populariteit. Net als in de eerdere analyses, kijken we naar de toepasbaarheid van het Bass-model voor de geselecteerde bestandsformaten, we beproeven ditmaal een paar cumulatieve grafieken en we kijken iets meer naar ruis in de aanloopfase van aanleveringen. Mijn dank gaat uit naar Valentijn Gilissen en Sam Alloing voor hun bijdragen aan het artikel.

Data

Een belangrijk deel van de aandacht voor de analyse van de DANS data is besteed aan het verzamelen en filteren ervan. DANS is enige tijd geleden overgestapt naar een Dataverse repository. Een van de voordelen van dit platform is dat de origineel aangeleverde bestandsnamen, en daarmee een goed deel van de bestandsformaten is op te vragen uit het systeem. Voor DANS gaat het hier voornamelijk om archeologiedata, met de bijbehorende Data Station Archaeology. Het filteren in deze data is wel van belang: veel datasets zijn beschikbaar in twee versies: een “gemigreerde” versie uit het vorige systeem genaamd EASY en een versie in voorkeursformaten waarnaartoe de originele bestanden zijn geconverteerd. Het aantal datasets dat nog niet gemigreerd is, ligt op ongeveer 3 duizend van de 120 duizend - een verlies van ruwweg 3%. Dit verlies bestaat vooral uit grote datasets. De migratie naar de Archaeology Datastation is nog niet afgerond; grotere datasets zijn nog niet overgezet, aangezien nog wordt uitgezocht wat de beste wijze is voor omgaan met grotere volumes in de Datastation omgeving. Desondanks kunnen we wel te stellen dat de datasets die wél zijn meegenomen, representatief zijn voor het totaal. De missende datasets zullen de aantallen opvoeren, maar niet de trends en verhoudingen, behalve waarschijnlijk dat de aantallen .JPG bestanden de dominantie van dit formaat nog verder zullen benadrukken.

Voor de doelen van deze analyse kijken we alleen naar datasets waar we beschikken over een versie 1.0 met origineel aangeleverde bestandsnamen. Vaak is er een versie 2.0: een gecureerde versie die door middel van conversie- en migratiestrategie dient te behoeden voor het risico op het in onbruik raken van bepaalde bestandsformaten die DANS altijd als risico heeft gezien. Net als bij de andere analyses die in het kader van dit project worden uitgevoerd, wordt niet in deze bestanden gekeken, maar kijken we enkel naar de beschikbare metadata van de duizenden beschikbare bestanden. We maken hiervoor gebruik van een drietraps-raket. De broncode voor het ophalen van de data en het aggregeren hiervan, plus de analyse staat open source ter beschikking.

Allereerst het ophalen van de data. We lopen door alle resultaten van de algemene indexpagina waar alle beschikbare datasets in de Archaeology Datastation staan vermeld. Daar extraheren we de Digital Object Identifiers (DOIs) uit de beknopte beschrijving, daarvan vragen we de algemene metadata op. We filteren op voorhand de datasets uit die zijn gemigreerd uit EASY, en datasets die ons de originele bestandsnamen kunnen vertellen. De complete versie-metadata van iedere dataset beschikbaar in de Archaeology Datastation wordt weggeschreven naar een bestand, met op iedere regel de JSON metadata voor een dataset. Om op deze manier door de meer dan 120.000 datasets heen te lopen kost het script iets meer dan een dag, resulterend in een bestand van 2,4 Gigabyte.

Metadata-datums

De tweede trap is het aggregeren van deze “ruwe” data. We extraheren de bestandstypes en de productiedatum voor de versie 1.0 van iedere dataset, die we samen aggregeren naar een nieuw JSON-bestand, gegroepeerd per bestandstype en per maand. Er zijn aan iedere gedeponeerde dataset in de Archaeology Datastation meerdere datumvelden gekoppeld die elk een andere rol spelen in levenscyclus van een dataset. In de production date wordt de datum gegeven waarop de dataset is afgerond (voorheen in EASY het Dublin Core veld “date created”). De individuele bestanden kunnen uiteraard eerder zijn gemaakt, maar dit is het moment waarop ze zijn verzameld en samengesteld. Het moment dat de dataset bij DANS wordt gedeponeerd (de deposit date) kan in principe veel later zijn. Dan wordt de dataset gecureerd en door door DANS gepubliceerd (de publication date) wat opnieuw nog veel later kan zijn, afhankelijk van de werkvoorraad en de beschikbaarheid van de datamanagers bij DANS die de dataset kunnen publiceren. De production date van eerste, originele versies is daarmee wel de meest logische en betrouwbare datum om naar trends voor het gebruik en voorkomen van bepaalde formaten te kijken.

Dataset-versies

In eerste instantie hadden we bepaald dat alleen datasets met en 1.0-versie plus een versienummer hoger dan dit in aanmerking zouden komen, maar dit leverde dermate veel snijverlies op dat niet meer dan ruwweg een tiende van de datasets nog in aanmerking kwam. Om een analyse te doen die representatief is en daarmee recht doet aan de verscheidenheid in de data, hebben we daarom dit criterium laten vallen. De filters hebben geresulteerd in een selectie van ruim 117 duizend datasets, voor een totaal van ruim 1,3 miljoen bestanden in 86 verschillende bestandstypes, gemiddeld ruwweg elf bestanden per dataset. De data van vóór 1997 laten we buiten beschouwing: de “ruis” uit deze periode zorgde ervoor dat de Bass-modellen zeer moeilijk tot niet te “fitten” waren op de data. De veruit meest gedeponeerde bestandstypen zijn, afnemend gesorteerd:

  • JPEG (680 duizend),

  • XML (316 duizend),

  • PDF (78 duizend),

  • CSV (33 duizend),

  • DBase DBF (18 duizend),

  • TIFF (16 duizend),

  • MapInfo TAB (14 duizend)

We analyseren de bestandsformaten waarvan we tenminste 10 kwartalen aan tellingen kunnen verzamelen, waarvan we de bestandstypes overhouden die de afgelopen twee jaar een vermindering zagen in de aantallen deponeringen. Hiermee houden we nog steeds tientallen van de 272 bestandstypen met tenminste 2 geregistreerde bestandsdeponeringen over, teveel om hier allemaal te behandelen. We kiezen een aantal opvallende en veel voorkomende bestandstypes.

Voordat we dit doen, kijken we eerst naar de totalen in aangeboden bestanden over de afgelopen jaren in algemene zin. Aangezien de Nederlandse archeologie sterk conjunctuurgevoelig is, is het belangrijk om te weten hoe de aanleveringen fluctueren. Hiermee hebben we een vollediger beeld op het moment dat we verminderd gebruik van een bepaald formaat analyseren: is het consistent met de algemene trends?

Jaarlijkse aantallen aangeleverde bestanden bij DANS 1997-2019, voor alle bestandstypen, op basis van de productiedatum van de dataset.

Uit de grafiek is een aantal zaken te lezen. Ten eerste is er een aanloopfase waarin nog relatief weinig bestanden werden gedeponeerd, zo tot 2006. Daarna volgde er een soort plateaufase waarin er een lichte dip te zien is ten tijde van de economische crisis rond 2012-2013. Met daarna een enorme stijging in aanleveringen in de periode vanaf 2016 De periode 2017-2019 zag ook de opkomst van het ArcheoDepot als formele machine-to-machine aanleverroute via de Provincies; hierbij is gebruik van preferred formats afgestemd met DANS. 2400 aangeleverde datasets via deze route is een aanzienlijke bijdrage in de totalen in die periode - maar het verklaart niet de gehele aanleverpiek bij een gemiddelde van ongeveer 11 bestanden per dataset. De periode 2020-2022 is buiten beschouwing gelaten in verband met incomplete tellingen. De aanlevertermijn voor projectdata vanaf 2020 is nog niet verlopen, dus deze periode vertekent het beeld.

Als we de onderstaande grafieken bekijken, moeten we dus eigenlijk ook met een schuin oog naar deze totalen kijken: op basis van deze aantallen nemen alle bestandsformaten in gebruik af. Deze afname heeft ook consequenties voor de lineaire-regressiemethode: we hebben tot nu toe stelselmatig een startpunt genomen voor de lineaire trendlijn vanaf het piekmoment van gebruik. Nu ligt dit piekmoment dermate dicht tegen het huidige jaar dat deze methode over onvoldoende data beschikt om bruikbaar te zijn voor train- en testdoeleinden. We laten daarom deze methode achterwege, en kijken naar de toepasbaarheid van de Bass-methode.

Toepassingsgebieden voor digitale bestanden in de archeologie

We bespreken hieronder bestandstypen in een viertal categorieën die gangbaar zijn in de archeologie. Data in de archeologie valt ruwweg uiteen in de volgende functies:

  1. Beeldmateriaal: foto’s van archeologische veldwerk, foto’s en tekeningen van vondstmateriaal, of scans van veldtekeningen;

  2. Tekstbestanden: rapporten als uitwerking van veld- en bureau-onderzoek, dagrapporten of beschrijvingen van boorstaten;

  3. Data(base)bestanden met beschrijvende data, zoals XML-bestanden, Microsoft (Access) databases, DBase bestanden. CSV bestanden laten we hier buiten beschouwing, aangezien dit één van de preferente formaten van DANS is om tabulaire data naartoe te converteren en aan te bieden aan afnemers van data.

  4. Geodatabestanden: digitaal kaartmateriaal in de vorm van Shapefiles, MapInfo TAB-bestanden, GeoJSON en geopackage.

Afbeeldingsformaten

Alleen JPG en TIFF bestanden komen als afbeeldingsformaten in voldoende aantallen voor in de DANS-data om te bespreken, maar nemen gezamenlijk zo ongeveer de helft van het aantal gedeponeerde bestanden in beslag. Een korte blik in de data toont dat het bij .JPG-afbeeldingen vooral om veldfoto’s gaat, en bij TIFF-afbeeldingen eerder om scans van objecttekeningen. Opvallend is dat in het geval van beide bestandsformaten het Bass-model de data maar moeizaam kan “fitten”: het slaat in beide gevallen de plank aardig mis. Vooral bij het .JPG format kan het Bass model geen goede fit vinden en blijft steken bij een vlakke lijn die vrijwel de y=0 lijn volgt.

TIFF

Jaarlijkse aantallen aangeleverde bestanden bij DANS 1997-2019, voor het bestandstype TIF, op basis van de productiedatum van de dataset.

JPG

Jaarlijkse aantallen aangeleverde bestanden bij DANS 1997-2019, voor het bestandstype JPG, op basis van de productiedatum van de dataset.


Tekstformaten

Veruit de meeste tekstbestanden worden in de vorm van PDF-bestanden aangeleverd, in aantallen die niet afwijken van de algemene trend in aanleveraantallen. Dit is logisch gezien het het primaire publicatieformat is voor rapporten. DOC en DOCX-bestanden worden in ongeveer gelijke mate aangeleverd - het gaat hier vaak om dagrapporten of andere voorbereidende of tussentijdse rapportages. Het DOC-format laat wel een duidelijke teruggang in aantallen zien sinds 2012 - een afname die niet te correleren is met de algemene trend in alle bestanden. Het gaat hier duidelijk om een verminderd gebruik van het format en zou daarmee goed in aanmerking komen om de transitie te maken naar een vervangend format, bijvoorbeeld in Open Document Format (ODT).

PDF

Jaarlijkse aantallen aangeleverde bestanden bij DANS 1997-2019, voor het bestandstype PDF, op basis van de productiedatum van de dataset.

DOC

Jaarlijkse aantallen aangeleverde bestanden bij DANS 1997-2019, voor het bestandstype DOC, op basis van de productiedatum van de dataset.

DOCX

Jaarlijkse aantallen aangeleverde bestanden bij DANS 1997-2019, voor het bestandstype DOCX, op basis van de productiedatum van de dataset.

Geo-formaten

De aanleveringen bij DANS voor wat betreft geo-informatie is verdeeld over drie soorten bestandsformaten, in afnemende volgorde van aantallen: ESRI Shapefile (SHP), MapInfo TAB, en GeoJSON. De eerste twee formaten zijn “proprietary” formaten in eigendom van grote software-leveranciers, het GeoJSON formaat daarentegen een open specificatie in JSON standaard.

Een belangrijke opkomende standaard in de geo-wereld is de “GeoPackage”: een open standaard in de vorm van een enkele “flat file” sqlite-database met de bestandsextensie “.gpkg”, met een gespecificeerde verzameling tabellen die zowel vector- als rastergeodata kunnen bevatten. Opvallend genoeg zien we bestanden in dit formaat nog dermate weinig terug dat hier geen grafiek van te tonen is - de tellingen komen niet verder dan 14 aangeleverde bestanden in dit formaat.

ESRI ShapeFile (SHP)

Jaarlijkse aantallen aangeleverde bestanden bij DANS 1997-2019, voor het bestandstype SHP, op basis van de productiedatum van de dataset.

MapInfo TAB

Jaarlijkse aantallen aangeleverde bestanden bij DANS 1997-2019, voor het bestandstype TAB, op basis van de productiedatum van de dataset.

GeoJSON

Jaarlijkse aantallen aangeleverde bestanden bij DANS 1997-2019, voor het bestandstype GeoJSON, op basis van de productiedatum van de dataset.

Tabulaire data-bestandsformaten

In de archeologie worden tabellen veelvuldig gebruikt voor standaardbeschrijvingen van methodische zaken (werkputten, vlakken, profielen, meetpunten), voor archeologische veldwaarnemingen (beschrijvingen van grondsporen) en vondsten (veldvondsten, splitsvondsten en materiaalspecifieke analyses). We kijken hier naar een paar tabulaire formaten die (semi)-gestructureerd zijn - in spreadsheets en databases.

Ondanks dat spreadsheet-formaten zoals XLS en XLSX veel lastiger te controleren zijn op kwaliteit en integriteit van verwijzingen tussen tabellen, zijn deze formaten onverminderd populair, meer dan beter gestructureerde formaten zoals databases. De spreadsheets worden in aantallen aangeleverd van ruwweg drie maal die van de meest gangbare database-formaten, die we verderop bespreken. Het XLS-format is, net zoals het verouderde .DOC formaat, duidelijk in gebruik aan het afnemen - dit valt te verklaren uit het modernere XLSX-format dat in de meer recente Microsoft Office-versies is opgenomen. De XLS bestanden zijn weliswaar leesbaar, maar worden nauwelijks meer geproduceerd.

Microsoft maakt al lange tijd software voor het gebruik van een database in een “flat file” format: een database waarvan de data in één enkel bestand staat. Vóór MS Office 2007 was dat het .MDB format (Microsoft Database format), erna het ACCDB format (Access Database format).

Opvallend genoeg is het aantal aangeleverde ACCDB bestanden verwaarloosbaar klein: slechts 200 bestanden zijn in het ACCDB opvolgformat aangeleverd, ondanks dat dit bestandsformaat nu al 15 jaar (!) in gebruik is. De Microsoft-geproduceerde bestandsformaten voor databases zien opvallend genoeg dus niet de transitie van verouderde naar nieuwere formaten, in tegenstelling tot de verouderde DOC en XLS formaten. Dit zegt waarschijnlijk veel over de methode die wordt gebruikt in de archeologie om een database te gebruiken: vanuit kopieën van een “basistemplate”. Er is weinig animo om de database-toepassingen te migreren op het moment dat er eenmaal een werkend systeem is opgezet. Tenzij een organisatie na overstap op MS Access 2007 of later is gestart met het verzamelen van data in een database, is het waarschijnlijk dat er een template van een projectdatabase is opgezet in .mdb formaat, die al kopiërend hergebruikt en doorontwikkeld wordt. Voorafgaand aan 2016/2017 zijn er nauwelijks ACCDB bestanden aangeleverd.

XLS

Jaarlijkse aantallen aangeleverde bestanden bij DANS 1997-2019, voor het bestandstype XLS, op basis van de productiedatum van de dataset.

XLSX

Jaarlijkse aantallen aangeleverde bestanden bij DANS 1997-2019, voor het bestandstype XLSX, op basis van de productiedatum van de dataset.

Microsoft Database (MDB)

Jaarlijkse aantallen aangeleverde bestanden bij DANS 1997-2019, voor het bestandstype MDB, op basis van de productiedatum van de dataset.

Microsoft Access database (ACCDB)

Jaarlijkse aantallen aangeleverde bestanden bij DANS 1997-2019, voor het bestandstype ACCDB, op basis van de productiedatum van de dataset.

Cumulatieve aantallen

Naar aanleiding van de vorige uitgevoerde analyses voegen we hier een korte proef toe om een grafiek te presenteren van cumulatieve tellingen: de totale aantallen aangeleverde bestanden inclusief die van de voorgaande periodes. Het voordeel hiervan is dat een dergelijke grafiek de tanden in onregelmatige aantallen wat glad strijkt en het hiermee voor het oog wat vriendelijker is. Het Bass-model is ongewijzigd: het gebruikt dezelfde drie parameters (coëfficiënten) als de “discrete” grafiek met absolutie (niet-cumulatieve) bestandsaantallen per periode. De grafiek voor TIF-bestanden is waarschijnlijk een geschikte, de aanlever-aantallen lopen sterk uiteen.

Nogmaals de absolute tellingen per jaar voor TIF:

Absolute aantallen aangeleverde bestanden bij DANS voor alle jaren vanaf 1997, voor het bestandstype TIF, op basis van de productiedatum van de dataset.

Versus de cumulatieve tellingen:

Cumulatieve aantallen aangeleverde bestanden bij DANS voor alle jaren vanaf 1997, voor het bestandstype TIF, op basis van de productiedatum van de dataset.

De grafiek oogt weliswaar vriendelijk, maar is moeilijker te interpreteren dan de grafiek met absolute tellingen. De terugval in aanleveringen in de economische crisis van 2012 is eenvoudiger te zien in de absolute aantallen dan in de optellingen van de cumulatieve grafiek. Bij zowel de niet-cumulatieve als de cumulatieve tonen duidelijk de moeite die het Bass-model heeft met de tweede piek aan aanleveringen in de periode 2017-2019.

De “cumulatieve aanpak” levert overigens geen oplossing voor situaties waarin het Bass-model geen goede “fit” kan vinden met de data - zie bijvoorbeeld de cumulatieve Bass-grafiek voor het JPEG-format, die laat voor de Bass-projecties exact hetzelfde beeld zien.

"Voorloopruis"

Wat we eerder nog niet gezien hadden, was dat de incorrecte “historische” data - PDF bestanden uit jaren waarin het formaat nog niet was uitgevonden - het Bass-model aardig in de war kunnen schoppen. Hieruit blijkt dat de data goed opgeschoond moest worden voordat het bruikbaar was voor het Bass-algoritme, het model blijkt slecht om te kunnen gaan met een aanloopfase waarin veel lage waarden of nul-waarden in zitten. Over het algemeen resulteerde dit in grafieken die met volledig vlakke Bass-curves. Een voorbeeld:

Voorbeeld van data met veel ruis in de voorloopfase: in de grafiek hierboven zijn de jaren 1990 t/m 1996 meegenomen, resulterend in een vrijwel volledig vlakke en onbruikbare Bass-curve.In de rechtergrafiek waar de voorloop data is weggelaten, resulterend in een nettere curve.

Een aanloopfase met lage aantallen resulteert niet altijd in een slechte fit. De grafiek voor het JPG-formaat (zie hierboven) duidelijk wel, maar die voor GeoJSON opvallend genoeg niet. Het blijft daarmee een kwestie van experimenteren: er is niet op voorhand te zeggen of een aanloopfase gaat resulteren in een slecht Bass model.

Conclusie

De verscheidenheid aan bestanden die DANS aangeleverd krijgt, maakt een mooie analyse mogelijk van de voornaamste toepassingsgebieden van digitale data in de Nederlandse archeologie. We hebben bestandstypen geanalyseerd voor beeldmateriaal, tekstbestanden, database-bestanden en ruimtelijke data.

In een aantal gevallen binnen deze bestandsformaten is duidelijk dat er transities zijn geweest, van oudere formaten naar nieuwere, vooral als het gaat om bestandsformaten gerelateerd aan het MS Office pakket. Oudere Word- en Excelbestanden worden verdrongen door de nieuwere varianten, maar opvallend genoeg gaat dit niet op voor de database-formaten die worden gebruikt in MS Access. Op het gebied van geo-informatie is GeoJSON in opkomst, en lijkt het MapInfo .TAB formaat duidelijk in gebruik af te nemen. De positie van MapInfo is in de archeologie duidelijk aan het afnemen. We zien nog geen opkomst van nieuwere open geo-formaten zoals GeoPackage. De tekstformaten worden gedomineerd door vooral .PDF-bestanden, waarbij we op dit moment geen inzicht hebben (we kijken niet in de bestanden in deze analyses) in de vraag in hoeverre het hier gaat om het archief-subformat PDF/A.

Wat betreft de bruikbaarheid van het Bass-model voor de aantallen bestanden in de behandelde formaten is dat we niet heel veel verder komen dan een zeer matige waarde van deze methode. Het algoritme kan maar moeilijk omgaan met de twee grote aanlever-piekperiodes van rond 2010 en 2019. De economische conjunctuur waarin de Nederlandse archeologie meebeweegt, strooit roet in het eten voor een algoritme dat de expressiviteit mist om hiermee goed om te gaan.

De volledige serie van Rein van 't Veer:
blog 1: Introductie
blog 2: Het internet als archief, het Bass-model in de praktijk
blog 3: Formaten in gebruik bij Beeld en Geluid
blog 4: Formaten in gebruik bij DANS
blog 5: Applicaties voor verdwijnende bestandsformaten

© 2022 CC-BY-SA-4.0 Rein van ‘t Veer/Netwerk Digitaal Erfgoed

Afbeelding bovenin: © 2022 CC-BY-SA-4.0 auteur, bewerkt van https://www.thingiverse.com/thing:1614896

Trefwoorden