Monitoring verouderende bestandsformaten 1

  • okt 2022
  • Rein van 't Veer
  • ·
  • Aangepast 28 jun
  • 59
  • 1
Rein van 't Veer
Preservation Digitaal Erfgoed
  • Marco Roling
  • Jonna van Zijl
  • Claudia Roeck
  • Ria Mink-Gijzen
  • Tamara van Zwol
  • Maarten Brinkerink [Digitaal Werktuig]
  • Toos Wilms

Samenvatting

Dit artikel is onderdeel van een serie over het monitoren van verouderende bestandsformaten. Is te voorspellen welke bestandsformaten in onbruik dreigen te raken? Dit project maakt onderdeel uit van het NDE-programma Preservation Watch en Preferred Formats. Dit is het eerste artikel: het tweede artikel vind je hier.

Medio 2022 heeft de werkgroep Preservation Watch een opdracht uitgezet omtrent de monitoring van bestandsformaten en hun levenscyclus. Het doel hiervan is om de voorspelbaarheid te onderzoeken van verouderende bestandsformaten. In oktober 2022 ben ik als auteur en “data scientist” (van opleiding archeoloog) aan dit project begonnen. In dit artikel zal ik kort toelichten hoe ik denk het project aan te pakken en welke vragen ik hoop dat het project kan beantwoorden.

Allereerst een paar voor de hand liggende vragen:

  1. Wat bedoelen we precies met bestandsformaten?

  2. Wat betekent het dat bepaalde bestandsindelingen “verouderen”?

  3. Wat hebben we eraan om te weten welke bestandsformaten in onbruik raken?

Het antwoord op de vraag wat een bestandsformaat (of ook: een “bestandsindeling” of “bestandstype”) is, is minder eenvoudig dan het lijkt. Velen zullen bestandsindelingen gelijk stellen aan een bestandsnaam-extensie zoals “.docx” of “.jpg”, maar soms is dit niet correct. Denk bijvoorbeeld aan de PDF-bestandsindeling: die kent verschillende profielen die verschillende functionaliteiten bieden. Voor archiefdoeleinden worden daarom de PDF/A subprofielen geadviseerd zodat bijvoorbeeld versleuteling en wachtwoordbeveiliging de toegankelijkheid van archieven niet in de weg staan.

“Veroudering” en “onbruik” zijn lastiger vast te pinnen. Is een format in onbruik als het niet meer gebruikt wordt, of als het niet meer te openen is met gangbare programma’s? Denk bijvoorbeeld aan WordPerfect-documenten. Ooit de standaard voor tekstverwerking onder MS-DOS, werd WordPerfect mid-jaren ‘90 in sneltreinvaart ingehaald door Microsoft Word na een geflopte Windows-versie. Desondanks zijn WordPerfect-bestanden nog altijd met een recente LibreOffice te openen en bewerken. De vraag is alleen hoe lang dit bestandsformaat nog wordt ondersteund in algemeen gangbare tekstverwerkingsprogramma’s - als immers niemand meer WordPerfect-documenten produceert, is er weinig aanleiding meer voor software-fabrikanten om het op te nemen in de lijst van ondersteunde formaten. Ondersteuning in software-bibliotheken zal nog lang beschikbaar zijn, zoals bijvoorbeeld beschikbaar gesteld in het Document Liberation Project of de Developer's Collection of Open Source File Format APIs, maar het toepassen hiervan in een applicatie is een tamelijk technische aangelegenheid. Hierin zit de crux van verouderende bestandsindelingen: het moment dat gangbare gebruikerssoftware de bestandsindeling niet meer ondersteunt, wil je liefst ruimschoots voor zijn.

Tenslotte: wat hebben we eraan om te weten dat een bestandsindeling in onbruik raakt? We hebben er in de vorige alinea al aan geraakt: ondanks dat er altijd oude versies van LibreOffice te installeren zullen blijven, moet de drempel voor het openen van WordPerfect-bestanden en de zoektocht naar software die het formaat in de toekomst wél ondersteunt, tot een minimum beperkt worden om archieven houdbaar en bruikbaar te houden. Alhoewel steeds meer software met emulatie weer tot leven gewekt kan worden - moderne computers kunnen Windows 95, Windows 3.1 en MacOS 8 probleemloos in een browser draaien - kan het installeren van oude software nogal een uitdaging zijn, laat staan bij gebrek aan software-licentiesleutels voor oude proprietary software. Met het monitoren van de gangbaarheid van bestandsformaten kunnen we de toegankelijkheid en bruikbaarheid van digitale archieven waarborgen, door verouderde formaten te converteren (met behoud van het origineel uiteraard) naar moderne, goed ondersteunde equivalenten: preferred formats.

Aanpak

Nu we het nut hebben vastgesteld van het monitoren van veroudering van bestandsindelingen, kijken we de komende maanden naar de meetbaarheid ervan. De populariteit van bestandsindelingen kunnen we meten in het aantal gedeponeerde bestanden van een bepaald bestandstype, opgeteld over een bepaalde periode zoals een maand of een kwartaal. Bij zeldzame bestandsformaten moet misschien zelfs over een periode van een jaar verzameld worden. Een stijgend gebruik, gemeten over voldoende verschillende periodes, is goed, maar afnemend gebruik noopt wellicht tot ingrijpen. Ingrijpen is alleen nodig als:

  1. Het gebruik terugloopt tot onder een bepaalde drempelwaarde (zeg bijvoorbeeld: 1% van het hoogst gemeten gebruik)

  2. Als er geen gangbare applicaties meer beschikbaar zijn om het formaat mee te openen. Het openen van het bestandsformaat moet geen zoektocht of technische onderneming worden.

  3. Als er een equivalent (of beter) bestandstype beschikbaar is waarnaar het verouderde formaat valt te converteren, met behoud van alle data en metadata.

De hoofdvraag voor dit project is of we bij afnemend populaire bestandsformaten kunnen voorspellen wanneer deze drempelwaarde wordt bereikt.

Modellen

Net als voor weersvoorspellingen gebruiken we wiskundige modellen voor het voorspellen van de populariteit van bestandsformaten. In het geval van bestandsformaten gebruiken we voorlopig veel eenvoudiger modellen dan voor het voorspellen van het weer: daarbij spelen veel meer meetbare variabelen een rol dan bij bestandstypen. We gaan de volgende modellen toetsen:

  1. Het Bass-model, genoemd naar wetenschapper en bedenker van het model Frank Bass,

  2. Een simpel regressiemodel met slechts één variabele: de gangbaarheid van het bestandstype.

Deze twee modeltypen worden hieronder nader toegelicht.

Baseline modellen

De reden waarom we voor twee modellen kiezen in plaats van één is eenvoudig uit te leggen. Het Bass-diffusiemodel is complexer dan de meest eenvoudige benadering: een regressielijn. Om zinvol te zijn, moeten we dus weten of, onder welke omstandigheden, en hoeveel beter het Bass-diffusiemodel is in het voorspellen van populariteit. Bij een enkel model weten we dit eenvoudigweg niet. Het eenvoudiger regressiemodel is daarom een “baseline” model: het stelt ons in staat om de betrouwbaarheid van een minder eenvoudig model ermee te vergelijken. Het adagium is “All models are wrong, but some are useful”. Ieder model is niet meer dan een benadering van de werkelijkheid, maar sommige modellen doen het nu eenmaal beter dan andere.

Metrieken

De nauwkeurigheid kunnen we bijvoorbeeld meten aan de gemiddelde afwijking van het aantal gedeponeerde bestanden per periode ten opzichte van de voorspelling. Hoe lager de afwijking, hoe nauwkeuriger het model. Het meten van een dergelijke nauwkeurigheid heet een metriek. Over het algemeen: hoe eenvoudiger de metriek, hoe beter deze is te interpreteren, hetgeen het vergelijken van de modellen ten goede komt.

Het Bass-diffusiemodel

Het Bass-model werd in 1969 geïntroduceerd door Frank Bass in het tijdschrift Management Science onder de titel A New Product Growth for Model Consumer Durables. Het model beschrijft en voorspelt hoe de verkoop van nieuwe producten zich ontwikkelt - van afnemers die vroeg instappen (innovators), naar volgers (imitators). Nadat de vroege instappers hun enthousiasme delen of afgeleide diensten of producten introduceren, komt de bulk van de productafname van de “volgers”, totdat het product achterhaald raakt. Het achterhaald raken van producten kan overigens intentioneel zijn: dit staat bekend onder de term geplande veroudering (planned obsolescence). Hoe dan ook: na verloop van tijd zijn er minder en minder afnemers totdat er geen nieuwe afnemers meer zijn.

Het Bass-model voorspelt afname (het aantal verkopen door new adopters, in rood in de afbeelding) over de tijd, op basis van de bovengenoemde twee parameters: de innovators (de gestippelde lijn) en de imitators (de gestreept-onderbroken lijn).

Grafiek met nieuwe

De innovators vormen aanvankelijk een grote meerderheid die gestaag afneemt, maar na verloop van een jaar of wat worden deze ingehaald door de imitators. Na een piekmoment neemt het aantal imitators weer af, waarna de adoptie uiteindelijk als een nachtkaars uitgaat.

Eerder onderzoek aan het Bass-model

De vraag of dit model opgaat voor bestandsformaten is al eerder in 2017 onderzocht, door Kresimir Duretec en Christoph Becker in hun artikel Format Technology Lifecycle Analysis en hun resultaten waren positief. De intuïtie achter de toepasselijkheid van het Bass-model voor bestandsformaten is als volgt: de software die wordt gebruikt om de bestandsformaten te produceren, kent een levenscyclus die past in het model van Frank Bass. Software wordt uitgebracht, wordt opgepikt door early adopters die hun enthousiasme voor de software verspreiden (bij succesvolle software) en die wordt gevolgd door een grotere groep gebruikers die het nut van de software inzien. Totdat er een betere versie van de software uitkomt, met meer mogelijkheden die boven de mogelijkheden van de oudere geassocieerde bestandsformaten gaan. Dus: met nieuwere en betere software komen formaten die de nieuwe functionaliteiten beter kunnen benutten, waarna de oudere formaten in onbruik raken.

De vraag is nog of hun onderzoeksresultaten ook opgaan voor de Nederlandse archiefsituatie en hoe de nauwkeurigheid van het model zich verhoudt tot een eenvoudiger model: dit is het hoofddoel van dit project.

Simpele lineaire regressie

De meesten van ons hebben in ieder geval op de middelbare school hier al wel eens te maken gehad: een lineaire regressie- of trendlijn. Deze trendlijn is een rechte lijn door een aantal gemeten datapunten, waarbij de afwijking tussen deze lijn en de daadwerkelijke metingen zo klein mogelijk is. Aangezien we ons onderzoek beperken tot afnemende populariteit, kunnen we de nauwkeurigheid meten aan de hand van metingen van afnemende populariteit. Lineaire trendlijnen zijn eenvoudig en nuttig voor fenomenen die een gestage, continue afname of toename kennen, maar wat “ruis op de lijn” hebben.

Grafiek van een lineaire regressielijn door een aantal datapunten met ruis


Ook een regressielijn kent twee parameters: de vermenigvuldigingsfactor voor de steilheid van de lijn, en de correctie die bepaalt waar op de y-as de lijn door het nulpunt gaat. Een dergelijke regressielijn is, vanwege de eenvoud ervan, een veelgebruikte referentiemethode.

Data

Om de nauwkeurigheid van de bovengenoemde modellen te meten, gebruiken we allereerst een referentie-dataset:

  • Common Crawl data, een referentie-dataset om te vergelijken met Nederlandse digitale-archiefsituatie.

Data van de volgende NDE-partners:

Van deze partijen wordt bekeken welke bestanden in welke formaten op welk moment zijn gecreëerd, of gearchiveerd op het moment dat de creatiedatum niet bekend is. De data worden gegroepeerd per maand, kwartaal of jaar (waar van toepassing), en gefilterd op bestandsformaten die afnemen in gebruik. Vervolgens passen we de overgebleven data in de modellen en beoordelen we deze modellen op hun nauwkeurigheid. Tenslotte kijken we voor een selectie van bestandsformaten naar de beschikbare applicaties. Zijn de bestanden nog te openen in algemeen beschikbare applicaties - worden deze nog goed ondersteund?

Planning

Het onderzoek naar de voorspelbaarheid van de veroudering van bestandsformaten loopt van september tot december. In deze periode wordt data verzameld, geanalyseerd en verwerkt. In de tussentijd publiceren we regelmatig updates over de vorderingen - het streven is om iedere maand een voortgangsbericht te plaatsen. Uiteindelijk verschijnt er in december een eindrapportage met de definitieve resultaten, die wat technischer en wetenschappelijker zal zijn ingestoken dan de blogposts op het KIA-platform.

De volledige serie van Rein van 't Veer:
blog 1: Introductie
blog 2: Het internet als archief, het Bass-model in de praktijk
blog 3: Formaten in gebruik bij Beeld en Geluid
blog 4: Formaten in gebruik bij DANS
blog 5: Applicaties voor verdwijnende bestandsformaten

© 2022 CC-BY-SA-4.0 Rein van ‘t Veer/Netwerk Digitaal Erfgoed

Afbeelding bovenin: © 2022 CC-BY-SA-4.0 auteur, bewerkt van https://www.thingiverse.com/thing:1614896

Trefwoorden