Gesprek over Linked Data en metadatamodellen

sep 2022
Eva van den Hurk - van 't Klooster
·
Aangepast jun 2024
1154

Samenvatting

Op vrijdag 22 juli spraken de leden van de netwerkgroep Preservation Watch met Ivo Zandhuis over metadatamodellen, Linked Data, documentinterpretaties en de uitdagingen rond het archiveren van digital born archiefmateriaal. In deze blog doen we verslag van dit gesprek.

De netwerkgroep Preservation Watch vanuit het Netwerk Digitaal Erfgoed signaleert en monitort diverse technologische ontwikkelingen voor het erfgoedveld. Regelmatig bloggen we over belangrijke thema's op het KIA-platform. Je blijft op de hoogte van alle bevindingen via het de kennisindex Preservation.

Een van de ontwikkelingen die worden gemonitord gaat over metadatamodellen.

De vier benodigdheden voor beschikbaarstelling

Om data beschikbaar te stellen, heb je vier elementen nodig:

· Een datamodel

· Een syntax

· Semantiek

· Een protocol

Een datamodel beschrijft welke elementen je nodig hebt om een archief te beschrijven. Voorbeelden van datamodellen zijn Records in Context (RiC), TMLO en MDTO. De syntax is de technische vertaling van het datamodel: welke techniek wordt gebruikt om data op te slaan? Een voorbeeld van een syntax is ToPX. De semantiek is de voor mensen leesbare betekenis van het metadatamodel. De semantiek ligt ook vaak vast in het metadatamodel. Het protocol is het formaat waarin de syntax wordt gegoten, bijvoorbeeld XML, CSV of JSON.

Aan deze vier elementen kan nog een vijfde element worden toegevoegd, dat niet direct invloed heeft op de beschikbaarstelling maar wel op de betekenis van de beschikbaar gestelde metadata. De technische vertaling van concepten in een metadatamodel wordt vastgelegd in een ontologie. Voor bijvoorbeeld Records in Context is dit Records in Context Ontology (RiCO).

Linked data

Je kunt data naast elkaar vastleggen (protocol CSV) of hiërarchisch (protocol XML). Wanneer je echter van een drie-knooppuntenrelatie (triple) gebruik maakt, richt je een netwerk in dat flexibeler is dan een CSV of XML. Linked data bestaat uit triples. Een stukje data (een gegeven) krijgt een Uniform Resource Identifier (URI), gelinkt aan een webadres (URL). Deze URI definieert de data. Een triple bestaat uit een subject, predicaat en object (ook wel het Resource Description Framework, RDF, genoemd). Ieder onderdeel van deze triple heeft een eigen URI. Door in de triple deze drie URI’s aan elkaar te verbinden, ontstaat er een netwerk. De triple-onderdelen maken gebruik van termenlijsten of vocabulaires, wat betekent dat er sprake is van standaardisering van de betekenis die de triple uitdraagt. Wanneer mensen aan twee kanten van de wereld een vergelijkbare URI hebben, kan er een concordans worden vastgelegd in een nieuwe URI. Dit is mensenwerk. Wanneer de data die gelinkt wordt in een triple toegankelijk en herbruikbaar is, wordt gesproken van open data, in dit geval Linked Open Data.

Documentinterpretaties

In de digitale wereld is het voor een informatieobject mogelijk om meerdere interpretaties te hebben. Een foto kan opgeslagen worden in TIFF, verkleind worden naar JPG en in een Word-document worden geplakt. Daarnaast leveren platforms als Transkribus (steeds betere) transcripties van scans. Metadatastandaarden als RiC en MDTO zijn zo ingericht dat er meerdere interpretaties van een informatieobject naast elkaar kunnen bestaan en als zodanig opgenomen kunnen worden in (de AIP van) het e-depot.

Uitdagingen

De ontwikkeling van meerdere metadatastandaarden en LOD stelt ons voor een hoop uitdagingen. Waar het bij analoge archieven voldoende was om de hiërarchie van en de dossiers in een archief te beschrijven, vraagt de digitale vindbaarheid van stukken om een beschrijving op stuksniveau. Dit zie je terug in de metadatastandaarden, waar naast een archief, serie en dossierniveau ook een stuksniveau is toegevoegd. Stuksgewijze beschrijving vergt meer tijd en inhoudelijke kennis van de metadateerder.

Deze vergrootte druk op archiefdiensten maakt dat de vraag rijst of bepaalde technieken ervoor kunnen zorgen dat je volledig toe kunt met alleen de bij een informatieobject geleverde metadata (zodat je deze zelf niet hoeft te verrijken) en dat deze metadata in de eigen vorm ontsloten kan worden, in plaats van in een mal van een metadatamodel te worden gegoten. Aan de andere kant kan het vertrouwen in techniek ook te groot worden. Computers zijn nog niet in staat om interpretaties en gerichte structuren aan informatieobjecten en metadata mee te geven. Binnen dit spectrum van wel of niet vertrouwen op techniek is de verwachting dat de komende jaren de werkzaamheden binnen archiefdiensten zullen verschuiven van het door medewerkers nalopen en beschrijven van informatieobjecten naar het onderzoeken hoe de ontsluiting van digitale archieven in interactie met computers zo optimaal mogelijk kan geschieden. Dit vraagt niet alleen iets van archivarissen, maar ook van de leveranciers van collectiebeheersystemen en e-depots om de door archiefdiensten gebruikte systemen hierop in te richten en door te ontwikkelen.

De toename van de omvang van (in mindere mate gemetadateerd) digitaal archief vergroot de kans dat digital born archief veel minder toegankelijk wordt dan analoog archief. De Google-manier van zoeken heeft zijn grenzen; de bak met data wordt op een gegeven moment te groot om er nog in te kunnen vinden wat je zoekt. Full tekst zoeken kan de vindkansen vergroten, maar helpt niet bij het begrijpen van de context van een bestand. Daarnaast moeten modellen voor automatische tekstherkenning steeds worden verbeterd, waar veel mensenwerk in zit. Indicering en metadatering blijven daarom van wezenlijk belang om ook digital born materiaal te kunnen blijven vinden. Het semantisch web (uitbreiding van het huidige web op basis van linked data) kan een uitkomst bieden in hoe deze metadatering eruit zou moeten komen te zien. De nieuwste metadatamodellen en de triples achter Linked Data zijn goede voorbeelden hoe vorm te geven aan de aansluiting op dit semantisch web. Ze vormen geen antwoord op alle uitdagingen die digital born archiveren met zich meebrengt, maar ze zijn een stap in de goede richting.

Meer weten over de nieuwste metadatastandaarden?

· RIC: https://www.ica.org/en/records-in-contexts-conceptual-model#:~:text=Records%20in%20Contexts%2DConceptual%20Model%20(RiC%2DCM)%20is,records%20both%20facilitate%20and%20document.

· RiC bij Stadsarchief Amsterdam: https://www.amsterdam.nl/stadsarchief/organisatie/blog-bronnen-bytes/records-contexts-nieuwe/'

· MDTO: https://www.nationaalarchief.nl/archiveren/nieuws/van-tmlo-en-tp-rijk-naar-mdto of

· MDTO: /thoughts/12255

· Linked Open Data: https://www.nationaalarchief.nl/onderzoeken/linked-open-data

Deel

Help

Gesprek over Linked Data en metadatamodellen

Samenvatting

De vier benodigdheden voor beschikbaarstelling

Linked data

Documentinterpretaties

Uitdagingen

Trefwoorden

Deel

Help

Gesprek over Linked Data en metadatamodellen

Samenvatting

De vier benodigdheden voor beschikbaarstelling

Linked data

Documentinterpretaties

Uitdagingen

Trefwoorden

Verken

Productvisie component logging Kerngroep Duurzame Toegankelijkheid en Common Ground

Datum voor de najaarsbijeenkomst van het Kennisplatform Preservation

Voor zijn impactanalyse gebruikt het Nationaal Archief FITS en C3PO. Hoe werken deze pre-ingest-tools?