Levendige informatiesessie preservationtools bij Het Utrechts Archief
Op 11 april 2017 verzorgt het Nationaal Archief (NA) bij Het Utrechts Archief (HUA) een informatiesess...
Dit artikel is de derde van de serie over het monitoren van verouderende bestandsformaten. Het vorige artikel vind je hier, het volgende hier. Is te voorspellen welke bestandsformaten in onbruik dreigen te raken? Dit project is onderdeel van het NDE-programma Preservation Watch en Preferred Formats.
Medio 2022 heeft de werkgroep Preservation Watch een opdracht uitgezet omtrent de monitoring van bestandsformaten en hun levenscyclus. Het doel hiervan is om de voorspelbaarheid te onderzoeken van verouderende bestandsformaten. In oktober 2022 ben ik als auteur en “data scientist” aan dit project begonnen. In het vorige artikel keken we naar de praktische toepassing en toetsing van de modellen die we in het eerste artikel in deze serie introduceerden.
In dit derde artikel analyseren we de bestandsformaten in gebruik bij het Nederlands Instituut voor Beeld en Geluid (NIBG). Hiervoor bedanken we in het bijzonder Mari Wigham, Willem Melder en Kiki Lennaerts. We kijken naar de volgende vragen:
Zijn er duidelijke trends waar te nemen van afnemend gebruik van bepaalde bestandsformaten bij het NIBG?
Is het Bass model van waarde als voorspellend model als er sprake is van afnemend gebruik? Is het Bass-model nauwkeuriger dan een rechte trendlijn, gerekend vanaf het moment dat het gebruik van een bestandsformaat begint af te nemen?
Voor de analyses in dit project kregen we toegang tot metadatarecords van het NIBG, in de vorm van een CSV-bestand van 4,7 miljoen records, in ruim 800 Mb aan data. Aangezien deze data niet gedeeld kan worden als open data, kunnen we alleen de geaggregeerde data aanbieden. Het CSV-bronbestand bevat onder meer de bestandsnaam, het bestandstype en de datum waarop het digitale bestand is aangemaakt, zoals beschreven in de levering van de metadata door het NIBG en terug te vinden in de CLARIAH mediasuite. De geaggregeerde data werkt met tellingen per maand, die in het analyse-script en onderstaande analyse verder zijn teruggebracht naar kwartalen.
De data is gefilterd op leesbaarheid van zowel het bestandstype als de aanmaakdatum, hiermee vielen bijna 600 duizend van de 4,7 miljoen records af, een verlies van 12,6%. Zo is niet van ieder bestand een aanmaakdatum bekend, of het is nog niet vermeld. De keus viel daarom op datums die op consistente manier beschikbaar zijn gesteld, zodat de data eenduidig is. 12,6% is een fors verlies, maar dit verliespercentage is gebruikelijk voor datasets in het algemeen. De brondata is vervolgens geaggregeerd naar bestandsformaat en naar periode. De groepering per bestandsformaat is redelijk recht-toe-recht-aan: het bestandsformaat is uit de data gehaald, op basis van een combinatie van de bestandsnaamextensie en het bestandstype zoals dat geregistreerd is in de archieven van het NIBG.
Het aggregeren van de data in periodes is een een kwestie van verstandig kiezen. De klassebreedte van een kwartaal kwam uit de bus als een goede keus omdat het enerzijds wat onregelmatigheden uit de data strijkt en daarmee een schonere curve oplevert, anderzijds blijven er genoeg datapunten over voor de voornaamste bestandsformaten om goede grafieken te kunnen plotten. Van de 16 identificeerbare bestandsformaten in de brondata bleven er 7 over die geschikt waren voor analyse. De afvallende bestandsformaten waren in alle gevallen duplicaten van de geschikte formaten, maar op een andere wijze beschreven: zoals “TIFF”, of de MIME-aanduiding “image/tiff” in plaats van TIF. De aantallen die hierin afvielen zijn verwaarloosbaar klein. Het kwartaal op moment van schrijven van dit artikel (vierde kwartaal 2022) is buiten beschouwing gelaten, omdat de aantallen bestanden hiervoor mogelijk nog niet compleet zijn. De tellingen per periode, per bestandsformaat zijn geëxporteerd en de data online beschikbaar gesteld als JSON bestand. De broncode voor het genereren van deze geaggregeerde data en het uitvoeren van de analyses in dit artikel zijn eveneens beschikbaar, als open source software.
De volgende formaten bleven over uit de voorbewerking:
Format | Aantal | Omschrijving |
TIF | 1876108 | Het tagged image format, een containerformaat voor afbeeldingen |
WAV | 1056765 | Het welbekende WAV-audioformat |
MXF | 977133 | Material Exchange Format, een containerformat voor digitale video en audio |
MP3 | 114405 | Het welbekende audiocompressie-bestandsformaat |
TAR | 58429 | Een bundelingsformaat voor digitale bestanden. Onduidelijk is welke formaten er in deze TAR-bestanden zijn opgenomen. |
36853 | Het Portable Document Format, een document-bestandsformaat | |
MPG | 16446 | Een verzameling videocompressiestandaarden en -bestandsformaten |
Tabel met archief-formaten zoals in gebruik bij NIBG, identificeerbaar over tenminste 10 periodes.
Opvallend is dat het meest gebruikte format hier TIFF is, een digitaal beeld-bestandsformaat. De lijst is daarnaast aanzienlijk korter dan de lijst formaten geanalyseerd uit de Common Crawl dataset uit het vorige artikel.
De lijst is dermate overzichtelijk dat we analyse kunnen behandelen van elk van deze zeven bestandsformaten. De grafieken tonen zowel de absolute aantallen aangetroffen bestanden per kwartaal (in blauw), de historische trends die de Bass-modellen eruit kunnen halen (in rood) en de projectie die de Bass modellen kunnen doen over de laatste vier kwartalen. Deze projecties hebben een wisselende nauwkeurigheid, niet alle Bass-projecties liggen even dicht tegen de daadwerkelijke metingen over de laatste vier gemeten kwartalen. We bespreken hieronder de formaten en hun tellingen over de tijd in meer detail.
Voor MP3-bestanden geldt dat het Bass model niet echt een goede “fit” kan vinden voor deze data. De aanleveringen zijn, afgezien van de eerste meting in 2018 tamelijk stabiel en tonen geen aanzienlijke afname. Er lijkt sprake van een interessante golfbeweging, waarbij het ene deel van het jaar - een “zomerstop”? - duidelijk minder bestanden worden gearchiveerd dan in het andere deel. Gezien de relatieve stabiliteit van deze archiveringen, kunnen we dit bestandsformaat goed buiten beschouwing laten. Het Bass model is hier wel duidelijk minder accuraat dan het lineaire model: op basis van lage begin-aantallen in de eerste metingen verwacht het Bass model een neergang die er niet is. Aangezien het hier om een stabiel formaat gaat, is er geen reden om het Bass model hier op af te rekenen: het gaat ons er vooral om dat het betrouwbaar voorspellingen kan doen bij verdwijnende formaten.
Het aantal gearchiveerde WAV-bestanden kennen een duidelijke populaire periode tussen 2009 en 2016, maar tonen in de afgelopen paar jaar geen duidelijke afname meer - eerder een bescheiden toename. Zouden we een rechte trendlijn door de periode 2017-2022 trekken, dan is een lichte stijging van de aantallen te zien, zodat we MP3 niet hoeven te scharen onder de verdwijnende bestandsformaten. Het Bass-model doet een aanzienlijke onderschatting in het aantal gearchiveerde bestanden van dit type over de afgelopen vijf jaar, maar aangezien het WAV-formaat de afgelopen jaren tamelijk stabiel in gebruik was, hoeven we het model hier niet op af te rekenen. We hebben hier een vergelijking met een lineair model dan ook buiten achterwege gelaten: het voegt geen extra informatie toe.
De aantallen tiff-bestanden vertonen historisch zeer onregelmatige aantallen geregistreerde bestanden. Zelfs aggregaties van dag naar kwartaal kunnen de onregelmatigheden hierin niet gladstrijken: blijkbaar zijn er op onregelmatige momenten grote hoeveelheden tiff-bestanden aangemaakt en gearchiveerd. Op basis van de data over de afgelopen zes jaar is echter eenvoudig te zeggen of er sprake is van afnemende aantallen: er zijn eenvoudigweg geen aantallen meer gerapporteerd sinds 2016 - Het Bass model is het hier met ons eens: het voorspelt nauwkeurig de ontbrekende aantallen over de laatste 4 kwartalen, waar een lineaire trendlijn er weinig meer van bakt in deze laatste kwartalen. Het is uit deze data evident dat het bestandstype bij het NIBG in onbruik is geraakt, voor het bepalen van een vervangend bestandsformaat heeft Preservation Watch de wegwijzer voorkeursformaten gemaakt.
Uit de grafiek is duidelijk te zien dat er relatief weinig gebruik meer wordt gemaakt van het tar-format bij het NIBG. Tar is een bestandsformaat om andere bestanden in te bundelen, dat eerst uitgepakt dient te worden voordat duidelijk is welk bestandsformaat erin is opgenomen - dit maakt het niet alleen lastiger in gebruik, maar ook lastiger om te beoordelen naar welk “preferred format” het geconverteerd zou kunnen worden aangezien dit afhankelijk is van het erin verpakte bestandstype. Wellicht dat dit ook het verminderde verbruik verklaart: het is beter de data onverpakt te archiveren dan in verpakte vorm. Het Bass-model toont duidelijk een betere voorspelling voor de laatste vier kwartalen dan de lineaire trendlijn.
Aangezien PDF geen audio- of video-bestandstype is, is dit een beetje een vreemde eend in de bijt van het NIBG. Ook de archivering ervan bij Beeld & Geluid is opvallend: twee grote pieken in 2014 en 2015, erna vrijwel geen activiteit meer. Aangezien PDF-bestanden in grote aantallen in gebruik zijn bij andere digitale archieven, nemen we deze wel mee in de analyse, maar het moge ook duidelijk zijn dat het Bass model best een goede “fit” weet te vinden op de data, het laat wat betreft nauwkeurigheid de lineaire trendlijn ver achter zich.
Het MXF-bestandsformaat kende een duidelijk een grotere populariteit in de beginperiode van de metingen: in de periode 2008 tot ongeveer 2018 kende Beeld & Geluid nog tienduizenden archiveringen van dit formaat per kwartaal, in de afgelopen paar jaar zakken de aantallen naar enkele duizenden per maand. Ondanks dat het Bass-model een wat pessimistischer inschatting maakt van de aantallen dan de daadwerkelijke metingen, en dat MXF bovendien een voorkeursformaat is voor het NIBG, is deze trend wellicht aanleiding om te kijken naar een ander “preferred format” dan MXF. Een van problemen van MXF is dat het een container format is, zoals tiff dat is voor afbeeldingen, dat een grote verscheidenheid aan codecs kan opnemen die lastig allemaal te ondersteunen en te onderhouden zijn. Open videosoftware zoals VLC kan mxf-bestanden afspelen, maar is afhankelijk van installaties van de gebruikte codecs in het MXF-bestand.
Het Bass-model (in oranje) heeft duidelijk moeite om een goede “fit” te vinden voor de vorm van de grafiek. Desondanks scoort het model duidelijk beter op de test data van de afgelopen vier kwartalen: de lineaire trendlijn (in rood) maakt een veel grotere onderschatting over de laatste vier kwartalen (in paars) dan het Bass model (in groen).
MPG of MPEG als bestandstype is een verzamelnaam voor een aantal video- en audioformaten die breed worden ondersteund door video- en audiosoftware, helaas hebben we geen betere specificering van deze bestanden van de specifiek codecs die erin zijn gebruikt. Ondanks de algemene populariteit van het bestandstype in de wereld is het aantal archiveringen de afgelopen jaren sterk teruggezakt bij het NIBG: er zijn in de afgelopen drie jaar geen vermeldingen meer van. Is dit aanleiding om over te stappen naar een ander bestandstype? En zo ja, welk? Het Bass-model is hier in ieder geval een overduidelijk beter model dan het lineaire model.
We keken in dit artikel naar de bestandstypes in gebruik bij de archieven van het Nederlands Instituut voor Beeld en Geluid. Opvallend is dat er in de bruikbare tellingen van het NIBG slechts twee videobestandsformaten naar voren kwamen: het MXF-format en MPEG. Wellicht nog opvallender hierin is dat de aantallen mpeg-bestanden de afgelopen paar jaar geen vermeldingen kregen, en ook de aantallen MXF-bestanden na de periode 2009-2012 een aanzienlijke afname zagen. Worden er in het algemeen minder bestanden gearchiveerd of gedigitaliseerd bij Beeld & Geluid, of hebben we geen compleet beeld?
Opvallend is ook dat er in de beginfase van de metingen aanzienlijke aantallen “verpakte” bestanden in TAR-format zijn geregistreerd, alhoewel bestanden in dit formaat vanaf 2014 nauwelijks meer worden gebruikt. Dat is op zich positief: de (meta)data is beter te interpreteren en te delen wanneer deze niet zit verpakt in een generiek bundel-formaat zoals TAR, wat goed kan verklaren waarom deze daling te zien is.
Kijken we naar de bruikbaarheid van het Bass-model voor het voorspellen van de bestandsformaten die afnemen in gebruik, dan zien we dat het model in alle gevallen aanzienlijk beter presteert dan de eenvoudiger lineaire trendlijnen. We kunnen dit experiment daarmee als een succes beschouwen: het model is duidelijk van grotere waarde dan een eenvoudig lineair model.
De volledige serie van Rein van 't Veer:
blog 1: Introductie
blog 2: Het internet als archief, het Bass-model in de praktijk
blog 3: Formaten in gebruik bij Beeld en Geluid
blog 4: Formaten in gebruik bij DANS
blog 5: Applicaties voor verdwijnende bestandsformaten
© 2022 CC-BY-SA-4.0 Rein van ‘t Veer/Netwerk Digitaal Erfgoed
Afbeelding bovenin: © 2022 CC-BY-SA-4.0 auteur, bewerkt van https://www.thingiverse.com/thing:1614896