Bias in metadata: in gesprek met techwatcher Ryan Brate

  • jan 2023
  • Liesbeth Oskamp
  • ·
  • Aangepast 28 jun
  • 98
Liesbeth Oskamp
Preservation Digitaal Erfgoed
  • Lotte Wijsman
  • Saskia Arentsen
  • Annemiek Barnouw
  • Gerdine Kruizinga

Op woensdag 23 november spraken de leden van Preservation Watch met promovendus Ryan Brate en projectleider Marieke van Erp over de opdracht die Brate als techwatcher voor de netwerkgroep gaat uitvoeren. Die opdracht gaat over bias in metadata van cultureel erfgoedinstellingen. In deze blog doen we verslag van dit gesprek.

De netwerkgroep Preservation Watch vanuit het Netwerk Digitaal Erfgoed signaleert en monitort diverse technologische ontwikkelingen voor het erfgoedveld. Regelmatig bloggen we over belangrijke thema's op het KIA-platform. Je blijft op de hoogte van alle bevindingen via het de kennisindex Preservation.

Een van de ontwikkelingen die worden gemonitord gaat over omgang met bias in metadata.

Ryan Brate is promovendus bij het Digital Humanities Lab van de KNAW (DHLab). Het DHLab maakt deel uit van het Cultural AI Lab, een samenwerkingsverband van verschillende onderzoeksinstituten en cultureel erfgoedinstellingen. Hij onderzoekt mogelijkheden om erfgoedinstellingen met computermodellen te ondersteunen in het herkennen en adresseren van bias in hun metadata.

Marieke van Erp is hoofd van het Digital Humanities Lab van de KNAW en begeleidt Ryan in zijn onderzoek.

De opdracht

Er zijn verschillende ontwikkelingen op het gebied van AI, het semantisch web en dekolonisatie van archieven. Denk hierbij aan het gebruik van algoritmen om bias uit metadata te halen, de inzet van Linked (Open) Data om verschillende beschrijvingen aan elkaar te koppelen en de mining van informatie uit verschillende bronnen. Deze onderwerpen komen samen in de uitdaging om meerstemmigheid in archieven op te nemen en toegankelijk te maken en bias tegen te gaan.

Brates opdracht is een verdiepende analyse te maken op de volgende vraagstukken:

- Wat is de invloed van meerstemmigheid op de levenscyclus van informatieobjecten?

- Hoe monitor je op ontwikkelingen op het gebied van AI en bias?

- Welke manieren zijn er/worden er ontwikkeld om context bij informatieobjecten op te nemen in het semantisch web?

Promotieonderzoek

Brate gaf aan dat de vragen die de werkgroep hem stelt, perfect aansluiten op zijn promotieonderzoek. Het startpunt van zijn onderzoek is dat collecties in culturele instellingen altijd beschreven zijn vanuit een bepaald perspectief en dat die perspectieven onvermijdelijk tot op zekere hoogte bevooroordeeld zijn. Dat kan te maken hebben met het moment in de geschiedenis waarop de beschrijvingen gemaakt zijn, de maatschappelijke verhoudingen van dat moment of de persoonlijke visie en culturele en maatschappelijke achtergrond van de persoon die ze maakte.

Het onderzoek richt zich op het ontwikkelen van een model dat helpt om die bias te identificeren en herkennen. Dat kan door data te verzamelen van de verschillende gezichtspunten en bepaalde terminologie die gebruikt wordt.Het gaat geen kant en klare tool opleveren die je zo kunt inpluggen en zijn werk laten doen, daarvoor is het gebied te grijs; er is geen goed of fout.

Woorden doen ertoe

Er vinden in de maatschappij ontwikkelingen plaats wat betreft meerstemmigheid en inclusie van personen die in het verleden gemarginaliseerd zijn. Dit heeft ook gevolgen voor de manier waarop over bepaalde onderwerpen gesproken wordt. Denk hierbij aan het gebruik van bepaalde woorden en termen en de Zwarte Pietendiscussie. Ook erfgoedinstanties zijn zich hier steeds meer van bewust.

Brate werkte mee aan een document met een lijst van termen waarvan bekend is dat ze problematisch zijn. Basis daarvoor was de lijst “Woorden doen ertoe”, die in 2018 in de museale wereld werd opgesteld. Met data uit de Europeana-collectie Nederlandse Kranten (een subset van de krantencollectie van de Koninklijke Bibliotheek) werd de lijst verder uitgebreid. De termen werden via crowdsourcing aan deelnemers voorgelegd die beoordeelden welke termen in de moderne context omstreden en niet meer acceptabel zijn.

Maar hoewel mensen dat veel beter kunnen beoordelen dan een computer, is ook dit problematisch. Brate onderscheidt drie niveaus van context: de letterlijk context, die iedereen kan lezen; de impliciete context, die je kent als je de taal van de beschrijving kent; en dan de persoonlijke context: die voor elk individu verschilt op basis van zijn kennis en achtergrond. Het zal dus altijd subjectief blijven.

Meerstemmigheid

Elke schrijver, elke krant of tijdschrift, heeft een andere kijk op het onderwerp, gebruikt andere woorden, benadrukt andere details. Dat zou je terug willen zien in je metadata. Niet alleen het perspectief van de katholiek, maar ook dat van de protestant.

In Nederlandse kranten zie je die verzuiling terug. Dat betekent dat het relatief makkelijk is om die verschillende perspectieven op te sporen; de beschikbare metadata helpt daarbij.

Maar op andere gebieden is dat lastiger. Neem bijvoorbeeld de kolonist naast de gekoloniseerde. Ook zij hebben een totaal andere kijk op dezelfde objecten, maar dat is niet vastgelegd in metadata. Veel zoekmachines geven vooral resultaten terug van de dominante stem, en dat is historisch gezien eerder die van de kolonist dan van de gekoloniseerde. Dat betekent dat de stem van de gekoloniseerde niet of minder terugkomt.

Het model van Brates onderzoek zal helpen om die bias op te sporen, te herkennen. Maar vervolgens blijft het mensenwerk; het model zal een hulpmiddel zijn voor de professionals in musea en archieven om hun collecties anders te ontsluiten en daarmee aansluiting te vinden bij een bredere groep gebruikers.

Brate: “We benaderen de problematiek vanuit de vraag: kunnen we verschillende stemmen isoleren en herkennen? En dan hopen we dat we die stemmen kunnen laten horen, ruimte geven. Maar niet met een waardeoordeel van dit is goed of fout, wel of niet acceptabel. Dat kan een computer niet, in elk geval nu nog niet. Dat laten we over aan de professionals.”

De complete serie van tech watcher Ryan Brate:
blog 1: Monitoring advances in the field of AI, with an emphasis on bias
blog 2: The Influence of polyvocality on the life-cycle of the GLAM objects
blog 3: Adding (polyvocal) context to semantic web representations
Interview with Ryan Brate

Afbeelding: Philipp Schmitt & AT&T Laboratories Cambridge / Better Images of AI / Data flock (faces) / CC-BY 4.0

Trefwoorden