Erfgoedinformatie beter vindbaar maken met linked data

  • nov 2021
  • Enno Meijers
  • ·
  • Aangepast 27 jun
  • 3
  • 103
Enno Meijers
Toegang tot Data
  • Ed de Heer
  • Liesbeth Keijser
  • Henk Laloli

Linked data is een middel om informatie op het web beter te standaardiseren. Het Netwerk Digitaal Erfgoed zet stappen om via deze weg de vindbaarheid van erfgoedinformatie te vergroten.

De vindbaarheid van erfgoedinformatie
Sinds 2015 werken erfgoedinstellingen, als uitvoering van de Nationale Strategie Digitaal Erfgoed, aan het beter vindbaar maken van hun informatie. In de nieuwe versie van de strategie[1], gepubliceerd in maart 2021, wordt dit doel als volgt omschreven: ‘Het doel van de Nationale Strategie is om erfgoed beter vindbaar te maken en hiermee het gebruik van erfgoed te vergroten. Dit gebeurt door het verbinden van de erfgoedcollecties vanuit de optiek van gebruikers, zoals erfgoedprofessionals, wetenschappers, leraren, kunstenaars en vele anderen. Hiermee wordt de maatschappelijke meerwaarde van digitalisering voor erfgoed gerealiseerd. Op dit moment is er veel erfgoed digitaal beschikbaar, maar moeten gebruikers daarvoor veel verschillende websites af. Om dit soort drempels voor toegang te verlagen moeten we zorgen dat collecties op een betekenisvolle manier verder duurzaam digitaal verbonden worden.’

Het vindbaar maken van erfgoedinformatie op het web staat dus centraal. Toch is het makkelijk kunnen vinden van relevante informatie minder eenvoudig dan het lijkt. Zonder de zoekmachines als Google zouden we geen idee hebben waar we moeten beginnen. Maar zelfs met zoekmachines is het vaak lastig om een goed beeld te krijgen van alle beschikbare informatie over een bepaald thema of onderwerp. Zeker wanneer deze informatie op veel verschillende plaatsen en in afzonderlijke stukjes wordt gepubliceerd, zoals bij erfgoed vaak het geval is.

Om die reden zijn er veel initiatieven om erfgoedinformatie bij elkaar te brengen in speciale websites (portalen). Deze portalen proberen gebruikers een zo volledig mogelijk beeld te geven van de beschikbare informatie, geselecteerd op basis van bepaalde thema’s (Tweede Wereldoorlog, mode, aardewerk), bepaalde materiaaltypen (boeken en kranten via Delpher) of personen (Van Gogh Worldwide). Het bouwen van deze portalen levert grote waarde op voor de gebruiker maar is niet de ideale oplossing voor de vindbaarheid van erfgoedinformatie in het algemeen. Het bouwen en onderhouden van dergelijke portalen is een lastig en kostbaar proces. Bovendien bieden de portalen maar een selectie van alle beschikbare informatie, waarbij het vaak onduidelijk is wat er wel en niet in het aanbod zit. Tot slot bieden deze portalen (nog) geen oplossingen om te navigeren naar relevante informatie in andere portalen of websites.

Standaardiseren bij de bron
In het Bruikbaar programma van het Netwerk Digitaal Erfgoed (NDE) werken we met instellingen en leveranciers samen aan het verbeteren van de vindbaarheid, waarbij alle aandacht uitgaat naar de oorsprong van de informatie. Door direct bij de bron de informatie zo open en gestandaardiseerd mogelijk beschikbaar te maken wordt de verwerking ervan door anderen eenvoudiger. Instellingen richten hun diensten logischerwijs op de menselijke gebruiker maar deze komt meestal pas bij de dienst terecht nadat een zoekmachine of andere applicatie die informatie verwerkt heeft. Door bij de bron rekening te houden met de leesbaarheid van de informatie voor applicaties, wordt de vindbaarheid op het web verbeterd waardoor de gebruiker de informatie makkelijker kan vinden.

Door de informatie in een webpagina te beschrijven als gestructureerde data met behulp van het Schema.org-vocabulaire[2], wordt het voor Google en andere zoekmachines duidelijk waar de informatie over gaat. In de erfgoedsector is het toepassen van Schema.org nog zeer beperkt, maar vrijwel elke webshop maakt hier gebruik van. Omdat Schema.org niet meer is dan een linked data-beschrijving van de beschikbare metadata, vormt dit ook een interessant startpunt voor het bouwen van een netwerk van op linked data gebaseerde erfgoedinformatie. Door de Schema.org beschrijvingen ook apart te publiceren als een linked data-dump of via een linked data-raadpleegomgeving (triplestore) ontstaan er interessante mogelijkheden voor het bijelkaar brengen van informatie.

Eerder heeft Europeana het Europeana Data Model ontwikkeld voor het harmoniseren van erfgoedinformatie om zo Europees erfgoedmateriaal via een zoekportaal vindbaar te maken. Op een vergelijkbare manier streven we er nu naar om erfgoedinformatie via Schema.org te harmoniseren en het zo vindbaar te maken op het web. Er zijn natuurlijk situaties waar het Schema.org te generiek is; in dat geval is gebruik van een specifieker, aanvullend model zoals Linked Art-[3] of het Records in Context[4]-model mogelijk.

Een netwerk van erfgoedinformatie
Linked data wordt pas echt bruikbaar wanneer er in de beschrijving ook verwezen wordt naar gestandaardiseerde termen. Het gebruik van gestandaardiseerde termen voor personen, onderwerpen, begrippen, plaatsen, enzovoort maakt het verbinden van erfgoed eenvoudiger. Binnen NDE is het Termennetwerk[5,6] ontwikkeld om deze gestandaardiseerde termen (met de bijbehorende URIs) eenvoudiger te vinden. Het Termennetwerk doorzoekt alle beschikbare bronnen rechtstreeks over het web zonder ze vooraf eerst te verzamelen. Hierdoor is het zoekresultaat altijd actueel en is het Termennetwerk zelf zeer eenvoudig te onderhouden. De functionaliteit ervan is inmiddels door diverse leveranciers van collectieregistratiesystemen in hun systemen ingebouwd en worden terminologie bronnen als de WO2 thesaurus, de AAT en Wikidata gebruikt in collectiebeschrijvingen.

In samenwerking met erfgoedinstellingen en leveranciers[7] werken we zo aan een netwerk waarin erfgoedinformatie gestandaardiseerd en met verwijzingen naar andere bronnen via linked data op het web wordt gepubliceerd, leesbaar voor zoekmachines en andere applicaties. Dat is een grote stap vooruit voor betere vindbaarheid, maar daarmee zijn we er nog niet want hoe weten de applicaties dat deze erfgoed bronnen bestaan?

Linked data is gebaseerd op het leggen van relaties tussen stukjes informatie verspreid over het web. Maar deze relaties werken altijd maar in één richting. Zo kun je in de beschrijving van een schilderij verwijzen naar een schilder. Maar om te achterhalen welke schilderijen allemaal gekoppeld zijn aan deze schilder bestaat nog geen oplossing. De relaties die via linked data aangebracht worden werken namelijk maar één kant op, net als gewone links op het web. Pas wanneer je alle stukjes linked data bij elkaar brengt, is het mogelijk om in beide richtingen over de relaties te redeneren. Om dit probleem op te lossen – zonder alle informatie in een centraal platform bij elkaar te brengen – werken we aan het Datasetregister[8].

Het Datasetregister leest de informatie die erfgoedinstellingen over hun collecties in linked data publiceren; deze dataset beschrijvingen[9] bevatten basale gegevens over de collecties die gepubliceerd worden. Na het eenmalig aanmelden van de dataset beschrijving controleert het Datasetregister dagelijks op wijzigingen.

Doorbouwen aan het netwerk
Portalen die voor hun diensten gebruik willen maken van erfgoedinformatie kunnen via het Datasetregister de verwijzingen naar de bronnen opvragen. Daar vinden ze alle informatie die nodig is voor de verdere verwerking. De portalen moeten dan nog steeds zelf de data verzamelen, verwerken en indexeren om zo de beoogde dienst te leveren.

In de toekomst zal het steeds beter mogelijk worden om op basis van de verwijzingen in het Datasetregister rechtstreeks informatie bij de bron op te halen en te presenteren. Het Termennetwerk laat al zien dat deze manier van werken mogelijk is. Ook zullen steeds slimmere zoekvragen aan het Datasetregister gesteld kunnen worden.

Vindbaarheid van erfgoedinformatie staat centraal in de Nationale Strategie voor het Digitaal Erfgoed. In deze blog heb ik geprobeerd duidelijk te maken hoe we in het NDE-Bruikbaar programma concrete invulling geven aan deze doelstelling. Onderstaande links geven meer details over de onderwerpen die ik aangestipt. Neem voor verdere vragen gerust contact met ons op via tech@netwerkdigitaalerfgoed.nl.

[1]: Nationale Strategie Digitaal Erfgoed: https://netwerkdigitaalerfgoed.nl/activiteiten/nationale-strategie-digitaal-erfgoed/
[2]: Schema.org documentatie: https://schema.org/
[3]: Linked Art model: https://linked.art/model/
[4]: Records in Context model: https://www.ica.org/en/records-in-contexts-conceptual-model
[5]: Termennetwerk API documentatie: https://github.com/netwerk-digitaal-erfgoed/network-of-terms-api
[6]: Termennetwerk voorbeeld implementatie: https://termennetwerk.netwerkdigitaalerfgoed.nl
[7]: Implementatierichtlijnen voor collectieregistratie systemen: https://netwerk-digitaal-erfgoed.github.io/cm-implementation-guidelines/
[8]: Datasetregister: https://datasetregister.netwerkdigitaalerfgoed.nl/
[9]: Eisen voor dataset beschrijvingen: https://netwerk-digitaal-erfgoed.github.io/requirements-datasets/

Reacties

3 reacties, meest recent: 10 november 2021
  • Ik hoopte dat mijn zoekinput in termennetwerk intelligent zou worden verwerkt, maar dat merk ik niet. Als ik naar "Urk" zoek en als bronnen het Archeologisch basisregister en Wikidata gebruik, dan krijg ik weinig zinvolle resultaten terug voor de eerste bron. Zoals de meeste zoeksystemen wordt hier op de labels of titels gezocht. Wellicht heeft "Urk" geen vindplaats in het Archeologisch basisregister. Ik verwacht eigenlijk dat een geografische term in al deze systemen ook een "link" heeft door gebruik te maken van een gedeelde geo-uri, maar dat lijkt niet het geval. Op z'n minst zou je een dialoog met de gebruiker verwachten, waarbij voorkeuren van de gebruiker (bedoel je de plaats "Urk") tot zinvolle actie in het zoeksysteem leidt.

    Henk Laloli
  • Beste Henk, bedankt voor je reactie! Ik neem aan dat je gezocht heb in de voorbeeld implementatie van het termennetwerk waarnaar ik in mijn blog link. Dat is een vrij eenvoudige applicatie waarmee we vooral menselijke gebruikers willen laten zien wat het termennetwerk is.

    De voorbeeld applicatie is gebouwd op de termennetwerk API die leveranciers van bijvoorbeeld collectieregistratiesystemen zelf in hun software kunnen inbouwen. Daarbij raden we aan om de context van het zoekveld (gaat om een onderwerp, een plaats, een persoon, etc) mee te laten wegen bij de keuze welke van de bronnen bevraagd moeten worden zodat er minder kans is op ruis in de resultaten.

    Omdat het termennetwerk realtime zoekt in de achterliggende bronnen zijn we erg afhankelijk van de mogelijkheden die de afzonderlijke bronnen bieden voor het zoeken zoals de standaard sparql zoekfuncties of specifieke fulltext zoekopties die per sparql endpoint kunnen verschillen. Daarnaast moeten we de zoekresultaten nog zien te harmoniseren om tot een eenduidig resultaat te komen, we kiezen daarbij om te standaardiseren op SKOS vanwege interoperabiliteit maar daarmee wordt wel elk resultaat van het type skos:Concept.

    Ik kan me zeker voorstellen dat er een slimmere client applicatie te maken is die een nadere analyse doet van de voorkomende types in het zoekresultaat en daarmee een dialoog met de gebruiker start. Dit valt momenteel echter buiten de scope van onze voorbeeld implementatie en zou wel consequenties kunnen hebben voor andere belangrijke eigenschappen zoals de responsetijd.

    Verder is het natuurlijk een gegeven dat het lastig zoeken is op korte zoekwoorden. Het centraal opbouwen over kennis over alle mogelijke voorkomende termen wat je denk ik bedoelt met de "gedeelde geo-uri" past niet in de decentrale opzet die we na streven. Ik hoop dat ik hiermee wat meer heb kunnen verduidelijken hoe het termennetwerk werkt.

    Enno Meijers
  • Beste Enno,
    dank voor je reactie. Ik vind het mooi dat er zoiets als dit is. En ik begrijp nu een beetje de mogelijkheden. Als ik me beperk tot wat er in de bronnen zit, dan valt me op dat er een aantal zijn met geografische data waarin geen links naar geografische linked data standaarden zitten. Ik zie bij de WO2 thesaurus wel een skos:exactMatch naar wikidata op een plaatsnaam term, maar bij de plaatsnamen thesaurus van Beeld & Geluid zie ik niets dat duidt op een geo standaard. Misschien een leuke case. Om de bronhouders aan te sporen hun plaatsnamen met geografische linked data standaarden uit te rusten. Maar dit is natuurlijk makkelijker gezegd dan gedaan. En welke standaard kies je dan (Geonames, TGN, Wikidata etc.) ?
    We zijn zelf net bezig met het opbouwen van linked data termensets. En dan moeten ze nog echt gebruikt worden in de data. Zie: https://vocabs.cbs.nl/nl/

    Henk Laloli