Monitoring van bestandsformaten 2: het internet als archief, het Bass-model in de praktijk: welke internetformaten zijn aan het verdwijnen?

  • nov 2022
  • Rein van 't Veer
  • ·
  • Aangepast 28 jun
  • 109
Rein van 't Veer
Preservation Digitaal Erfgoed

Samenvatting

Dit artikel is de tweede van een serie over het monitoren van verouderende bestandsformaten, het vorige artikel vind je hier. Is te voorspellen welke bestandsformaten in onbruik dreigen raken? Dit project maakt onderdeel uit van het NDE-programma Preservation Watch en Preferred Formats. Het derde artikel vind je hier.

Medio 2022 heeft de werkgroep Preservation Watch een opdracht uitgezet omtrent de monitoring van bestandsformaten en hun levenscyclus. Het doel hiervan is om de voorspelbaarheid te onderzoeken van verouderende bestandsformaten. In oktober 2022 ben ik als auteur en “data scientist” aan dit project begonnen. In het vorige artikel keken we naar de methoden die we toepassen om de ontwikkeling van verouderende bestandsformaten te analyseren.

Met de Common Crawl datacollectie als internetarchief kijken we in dit artikel naar het gebruik van deze methoden in de praktijk, om in het volgende artikel naar van bestanden in Nederlandse archieven te analyseren. Het internet is in toenemende mate te beschouwen als een archief, met het Internet Archive en Common Crawl als voornaamste “archiefinstellingen”.

Common Crawl

Common Crawl archiveert als organisatie zonder winstoogmerk de afgelopen zeven jaar aan publiek toegankelijke webdata, “geschraapt” van het internet. De belangrijkste reden om deze dataset als digitaal archief te gebruiken is dat de organisatie op een eenvoudig toegankelijke manier gebruiksstatistieken van bestandsformaten publiceert over de afgelopen vijf jaar; een serie ijkpunten waarmee we de data van archieven in Nederland kunnen vergelijken en de geselecteerde Bass- en lineaire modellen op kunnen oefenen.

Voorheen waren grootschalige web crawl data eigenlijk alleen beschikbaar voor grote zoekindexen, maar Common Crawl biedt deze data aan in petabytes aan open webdata, in miljarden bestanden en biljoenen links. Gelukkig publiceert Common Crawl al de voor ons gewenste statistieken in geaggregeerde vorm, zodat het niet nodig was om door de zee aan data te waden. Dit resulteert in een tijdserie van 55 metingen voor elk van de 100 meest voorkomende MIME-types. We beperken ons tot de mediatypen die de afgelopen jaren afnamen in gebruik. Met “afname” bedoelen we hier dat er in het verleden een gebruik is gemeten dat hoger ligt dan de laatst gemeten waarde.

Voor het analyseren van de data hebben we een script gebruikt. Het script is geschreven in de programmeertaal Python en is als open broncode vrijgegeven. Op basis van de 100 meest voorkomende formaten maken we tellingen van hun populariteit. Filteren we de MIME-types op afnemend gebruik, dan houden we 26 te verwachten en minder verwachte bestandstypen over. De tien grootste dalers zijn:

  • XHTML: een striktere versie van HTML,

  • HTML: het voornaamste webpagina-format,

  • Coldfusion: een inmiddels weinig populaire programmeertaal voor het web,

  • ASP.Net: een programmeertaal voor webservers,

  • RSS: een webformat om feeds van blogposts, artikelen of andere nieuws-items te publiceren,

  • GIF: een bestandstype voor afbeeldingen,

  • MPEG-4: een video-bestandsformaat,

  • Powerpoint: het welbekende presentatieformaat,

  • X-diff (een duidelijke beschrijving op het web ontbreekt): een metadata-format voor verschillen in tekstbestanden,

  • Zlib: een standaard en bestandsformaat voor datacompressie.

Op XHTML en GIF gaan we hier wat dieper in. We passen het Bass-model toe op de data en kijken in hoeverre het model zinvol is om te gebruiken als voorspellende methode, vergeleken met een eenvoudige rechte trendlijn. De kwestie van wat een goede “drempelwaarde” voor deze formaten zou zijn om ze te gaan converteren naar een moderner format laten we in dit artikel nog open, om de lengte van dit artikel enigszins binnen de perken te houden.

XHTML is met stip de grootste daler. XHTML is een vorm van HTML, met striktere regels rondom correctheid en validatie. Alhoewel XHTML nog altijd een respectabel 12% aandeel van de webpagina’s bedraagt, is het format hard achteruit aan het hollen in gebruik ten opzichte van het 15% aandeel dat het een jaar geleden had en een aandeel van maar liefst 30% van de webpagina’s 5 jaar geleden. Mijn vermoeden is dat XHTML het aflegt tegen HTML5, de huidige web-standaard, al had Tim Berners Lee, de uitvinder van het internet, er zijn twijfels al bij in 2006.

XHTML: de grootste daler in gebruik van internetformaten

Andere formaten kennen een veel minder dramatische daling. Een opvallende lichten we uit: het GIF-format, dat onlangs aandacht kreeg in een online artikel over de geschiedenis en onzekere toekomst van het bestandstype. GIF, specifiek het subtype GIF89a, was lange tijd het voornaamste format om lichtgewicht animaties op een webpagina te tonen die automatisch weer van voren af aan begonnen. Giphy is nog altijd een veelgebruikt platform om deze op te nemen, maar deze worden meer in chats gebruikt dan rechtstreeks op webpagina’s. Ondanks dat de grafiek van mei 2021 naar mei 2022 een lichte “hobbel” laat zien, neemt het gebruik in de afgelopen jaren af.

Trend in het gebruik van GIF-afbeeldingen op het web

Evaluatie

Voor de twee grafieken van XHTML en GIF zijn een paar opvallende zaken te melden. Geen van de geselecteerde bestandsformaten hebben een logisch 0-punt in de gebruikte data: de formaten zijn zelf veel ouder dan de statistieken uit Common Crawl. We kunnen met Common Crawl niet verder terugkijken dan mei 2017 als het op geaggregeerde statistieken aankomt, en sowieso niet verder dan hun startdatum in 2014, terwijl XHTML uit 2000 stamt, en GIF uit maar liefst 1987. We missen dus het overgrote deel van de jaren waarin deze formaten opkwamen op het web. Desondanks valt de data van het XHTML-gebruik goed in het Bass-model te passen: het heeft duidelijk geen nulpunt nodig uit 2000 om een mooie curve te kunnen “fitten”. Dit gaat helaas in mindere mate op voor het GIF format. De sterke pieken en dalen in de data zijn lastig in te passen in het model, en met name in de data in de rechter helft van de grafiek is duidelijk te zien dat het model onderschat hoeveel GIF er nog in gebruik is.

Desondanks is in beide grafieken wel goed te zien dat het Bass model het voor deze twee geselecteerde bestandstypen het aanzienlijk beter doet dan de eenvoudiger lineaire trendlijn. De grotere flexibiliteit van het Bass-model maakt dat de data beter te “fitten” is in dit model. Dit geldt voor alle bestandsformaten in de Common Crawl data die in gebruik afnemen: de gemiddelde fout is over het algemeen lager voor de Bass curve dan voor de lineaire curve:

Mime type

Bass gemiddelde fout

Linear gemiddelde fout

Ratio Bass over lineair

video/x-matroska

192

6210

0.031

text/asp

34368

259793

0.13

video/x-m4v

1260

9720

0.13

audio/midi

2526

10759

0.23

text/aspdotnet

69091

287653

0.24

audio/mp4

1187

2854

0.42

text/x-coldfusion

118534

285183

0.42

application/xhtml+xml

30815786

69746869

0.44

application/x-dosexec

4739

9884

0.48

application/x-shockwave-flash

9073

18741

0.48

image/gif

143626

265709

0.54

image/bmp

2731

4739

0.58

application/vnd.ms-excel

12010

19174

0.63

application/rss+xml

623531

797559

0.78

application/javascript

5232

5327

0.98

image/vnd.microsoft.icon

3915

3997

0.98

application/x-debian-package

1663

1673

0.99

application/vnd.android.package-archive

5135

4693

1.1

application/text

12480

9319

1.3

text/x-vcalendar

16333

12049

1.4

application/vnd.ms-powerpoint

16115

9448

1.7

application/zlib

7601

4305

1.8

text/x-diff

55492

10628

5.2

text/html

2351887901

338079635

7

application/x-mobipocket-ebook

11454

1127

10

Gemiddelde fout per MIME type, per modeltype, in aantallen URLs. In de rechterkolom de Bass-fout gedeeld door de lineaire fout. Kleiner dan 1 betekent dat het Bass model het beter doet dan het lineaire model.


Uit de resultaten blijkt dat bij 13 van de 26 webformaten die afnemen in gebruik, het Bass model een aanzienlijk betere voorspelling doet op de testdata van het afgelopen half jaar dan een eenvoudige lineaire trendlijn. In drie gevallen is de nauwkeurigheid nagenoeg hetzelfde, er zijn ook maar liefst 8 webformaten waarvoor het Bass-model het slechter doet dan een rechte trendlijn, en soms stevig in de fout gaat, zoals de onderste in de rij: het Mobipocket-ebook formaat. Wat gaat hier mis?

Trend in het aantal Mobipocket-ebook-bestanden in de Common Crawl datasets

De interpretatie is hier dat de onregelmatigheden in de aantallen URLs hier dermate groot zijn, dat het Bass-model geen goede “fit” kan vinden binnen de parameters van het model. Uit de lineaire trendlijn is bovendien te zien dat gemiddeld dit bestandsformaat een licht stijgend gemiddelde heeft, na de grootste gemeten piek rond 2018. Is hier wel echt sprake van afnemend gebruik? Op basis van deze data is dat niet met stelligheid te zeggen; Amazon kocht Mobipocket in 2005, waarna het bedrijf in 2011 stopte met het formaat, drie jaar voordat de metingen van Common Crawl überhaupt waren gestart. Al deze zaken zullen eraan bijgedragen hebben dat het Bass model hier slechter presteert dan het lineaire model.

Conclusie

We hebben het Bass-model en een lineaire trendlijn getoetst op hun waarde als voorspellende modellen voor het gebruik van de voornaamste bestandsformaten op het internet, zoals die door Common Crawl zijn gemeten over de afgelopen vijf jaar. Uit de gemiddelde fout van de Bass modellen en de lineaire modellen blijkt dat in de meeste gevallen het Bass model het beter doet dan een eenvoudige rechte trendlijn, maar dat dat zeker niet in alle gevallen zo is. Daar waar veel onregelmatigheden in de metingen zitten en waar het de vraag is of er echt sprake is van afnemend gebruik, lijkt het Bass model slechter te presteren.

Betekent dit dat het Bass-diffusiemodel wel toepasbaar is voor data van de archieven in Nederland? Dit gaan we onderzoeken in de volgende blogpost aan de hand van archiefdata van NDE-partners, met een grotere tijdsdiepte dan die van de Common Crawl. Uit de Common Crawl data blijkt in ieder geval dat we blijven beoordelen of het model het wel beter doet dan een rechte trendlijn over de periode dat er daling te zien is in het gebruik, gemeten vanaf het moment van het hoogst gemeten gebruik.

De volledige serie van Rein van 't Veer:
blog 1: Introductie
blog 2: Het internet als archief, het Bass-model in de praktijk
blog 3: Formaten in gebruik bij Beeld en Geluid
blog 4: Formaten in gebruik bij DANS
blog 5: Applicaties voor verdwijnende bestandsformaten

© 2022 CC-BY-SA-4.0 Rein van ‘t Veer/Netwerk Digitaal Erfgoed
Afbeelding bovenin: © 2022 CC-BY-SA-4.0 auteur, bewerkt van https://www.thingiverse.com/thing:1614896

Trefwoorden