Thematiendaagse De gebruiker centraal: Pakkende verhalen met verbonden erfgoed
Op dinsdagmiddag 28 maart vond de inspiratiesessie: Pakkende verhalen met verbonden erfgoed plaats. Vo...
Met de nieuwe beschrijvingsstandaard Records in Contexts (RiC) wordt het voor archiefinstellingen mogelijk om van archiefbeschrijvingen Linked Open Data te maken. Linked Dataspecialist Ivo Zandhuis heeft samen met het Stadsarchief een vijfsterrensysteem ontwikkeld, waarmee inzichtelijk wordt welke stappen nodig zijn om tot goede Linked Open Data te komen. Aan de hand van de onderstaande archiefbeschrijvingen wordt het sterrensysteem geïntroduceerd en toegelicht.
* Full text zoeken
Stel dat je geïnteresseerd bent in de bekende Amsterdammer Jacob van Lennep. Momenteel ga je naar een zoekomgeving (zoals een archiefwebsite) en typ je Jacob van Lennep in. Aan de hand van deze zoekterm wordt full text gezocht en een resultatenlijst getoond met alle beschrijvingen waarin die zoekterm voorkomt, dus zowel Jacob van Lennep, Jan Jacob Roeters van Lennep en de Jacob van Lennepkade.
** Extraheren
In de beschrijvingen hierboven zijn gedeelten van de tekst met een kleur gemarkeerd, dit zijn verschillende soorten entiteiten. Bijvoorbeeld de RiC entiteit Person (groen: Jacob van Lennep, Aart Veder), Corporate Body (paars: Stoomzagerij Van Lennep, Rederijkerskamer Van der Palm, Walburgpers) en Place (blauw: Rotterdam, Jacob van Lennepkade 334). Met de techniek Named Entity Recognition kunnen deze entiteiten in de beschrijvingen gemarkeerd worden. Vervolgens worden deze entiteiten opgeslagen en met een relatie aan de archiefbeschrijving gekoppeld. De gebruiker kan dan zeggen: ik zoek de persoon Jacob van Lennep. De Place Jacob van Lennepkade wordt dan niet meer in de resultatenlijst getoond. Maar wel alle mensen met de persoonsnaam Jacob van Lennep, dus ook David Jacob van Lennep en Jan Jacob Roeters van Lennep.
*** Intern identificeren
Zoals we hierboven zien zijn er meerdere mensen met de naam Jacob van Lennep. De volgende stap is om entiteiten te identificeren en dat kan in eerste instantie door de entiteiten te koppelen aan een interne terminologiebron, zoals een thesaurus of een trefwoordenlijst. De gebruiker kan dan zoeken op deJacob van Lennep (1802-1868) en zien wat het Stadsarchief allemaal van hem en over hem in huis heeft. Gezien de grote hoeveelheid namen in inventarissen (en indexen) is het raadzaam om keuzes te maken wie wel en wie niet wordt geïdentificeerd. Wellicht is ‘Jacob van Lennep (1802-1868)’ een goede kandidaat en ‘Jan de Vries, arbeider’ niet. Als je namen hebt gestandaardiseerd, kun je in de raadpleegomgeving een interactie maken met de gebruiker: bedoelt u met ‘mr J. v. Lennep’ deze persoon ‘Jacob van Lennep (1802-1868)’?
**** Extern identificeren
Niet alleen het Stadsarchief heeft informatie over Jacob van Lennep, maar ook andere erfgoedorganisaties. Dat wordt inzichtelijk gemaakt door te linken met specifieke externe terminologiebronnen, zoals de Nederlandse Thesaurus van Auteursnamen, wikidata.org of de RKD Artists thesaurus. De gebruiker kan dan via de metadata van het Stadsarchief over Jacob van Lennep doorklikken naar die externe bron(nen), en daar zien wat een andere instelling ook aan materiaal heeft. Hiermee wordt een belangrijke stap gezet in het realiseren van een netwerk van data dat over de grenzen van de eigen instelling heen gaat.
***** Relateren
Tussen RiC entiteiten kunnen allerlei soorten relaties worden gelegd. Bijvoorbeeld dat Van Lennep getrouwd was met Henriëtte Röell, bewoner was van een bepaald pand of directeur was van een instelling. Voordeel is dat de gebruiker via deze relaties bij informatie over Jacob van Lennep kan uitkomen zonder dat deze expliciet wordt genoemd. Dergelijke doorverwijzingen naar archiefbronnen van entiteiten kunnen heel relevant zijn voor het onderzoek dat de gebruiker naar Jacob van Lennep (1802-1868) doet.
Implementatie
Het vijfsterrensysteem is hierboven gedemonstreerd aan de hand van het voorbeeld van de entiteit Person (Jacob van Lennep), maar we hebben gezien dat RiC meer entiteiten biedt, zoals Place, Event en Activity. Voor deze entiteiten kunnen de omschreven stappen ook doorlopen worden. Alle entiteiten op de vijfde ster krijgen is een intensieve klus. Het Stadsarchief heeft op dit moment een project in voorbereiding waarin de entiteiten waar het meest op wordt gezocht (locaties, personen, families en instellingen) uit de inventarissen worden geëxtraheerd en geïdentificeerd (ster 2 t/m 4). Naar aanleiding van de resultaten van dit project wordt gekeken wat de logische vervolgstappen zijn. In toekomstige blogs wordt verder ingegaan op deze ontwikkelingen.
Reacties
Ik krijg bij deze aanpak een beetje het gevoel dat de automatisch getranscribeerde notariële akten de input zijn voor het maken van Linked Open Data? Alsof er nog geen semantische rijke data voorhanden is, die zijn er natuurlijk wel in de indexen, in grote mate zelfs!
Ook lijkt het gehele proces een hoog "met de hand" gehalte te hebben waardoor alleen Bekende Amsterdammers in aanmerking komen voor "identificatie". Ik neem toch aan dat via matching/reconciliatie een groot deel geautomatiseerd kan worden?