Op bezoek bij de buren van e-discovery

  • 16 mrt
  • Erik Saaman
  • 231
  • 1
Profielfoto van Erik Saaman
Systemen en data
  • Profielfoto van Hedwig Bulthuis
  • Profielfoto van Frederiekje de Jongh
  • Profielfoto van Liesbeth Keijser
  • Profielfoto van Nicole Fielmieg

Vorige week was ik spreker op het Symposium E-Discovery 2026, georganiseerd door de Hogeschool Leiden. Dit was een heel inspirerende bijeenkomst. Ik voelde me als een kind in een snoepwinkel. Zoveel veelbelovende nieuwe technieken om vanuit een grote hoeveelheid ongeordende informatie een samenhangend verhaal te maken. Ik denk dat we daar nog veel van kunnen leren voor informatie- en archiefbeheer.

E-Discovery is een vakgebied dat zich bezighoudt met het identificeren, verzamelen, doorzoeken en analyseren van digitale informatie voor politieonderzoek, juridische onderzoeken, rechtszaken of interne compliance-onderzoeken. De informatie zijn vaak bewijsstukken. Denk bijvoorbeeld aan het analyseren van een criminele organisatie aan de hand van in beslaggenomen chatberichten. Zie het EDRM-model als je hier meer over wilt weten.

Alhoewel de toepassingen van e-discovery anders zijn dan van digitaal archiefonderzoek, is de achterliggende werkwijze denk ik heel vergelijkbaar. Zeker als je onderzoek doet in een slecht geordend en gemetadateerd archief. Dat betekent dat de instrumenten die ontwikkeld zijn voor e-discovery mogelijk ook bruikbaar zijn voor archiefonderzoek, en andersom. Ik ben daarom verbaast dat ik op het symposium helemaal niemand van een archiefinstelling tegenkwam. Dat is jammer, want we kunnen veel van elkaar leren.

Ik gaf een presentatie over een prototype dat in opdracht van het Nationaal Archief is ontwikkeld voor het automatisch genereren van thema’s en tijdlijnen uit grote hoeveelheden documenten. Met behulp van een taalmodel (BERTopic) en generatieve AI (Gemini) zijn uit die documenten volledig automatisch thema’s en tijdlijnen van gebeurtenissen afgeleid. Het publiek herkende dit als een nuttig tool voor e-discovery. En veel tools vanuit de e-discovery doet ook iets met tijdlijnen.

Alle presentaties gingen over toepassingen van generatieve AI. Heel interessant was het verhaal van Jakub Zavrel van Zeta Alpha. Hij liet zien hoe je door de inzet van een heel leger aan AI-bots veel dieper onderzoek kan doen in bronnen dan de vrij oppervlakkige antwoorden die we uit de bekende chat-bots krijgen. Daarbij wordt de onderzoeksvraag eerst vertaald naar een onderzoeksplan. Waarna allemaal deeltaken worden gedefinieerd die door losse bots worden uitgevoerd, en de deelresultaten worden samengevoegd.

Ik sprak laatst iemand die zich afvroeg of we nog wel metadata nodig hebben, als generatieve AI alle vragen kan beantwoorden. Dan zouden we kunnen stoppen met het verzamelen van metadata. Maar dit symposium maakte voor mij duidelijk dat juist ook AI-toepassingen onder de motorkap veel gebruik maken van metadata. Dus we zijn nog lang niet van metadata af. Hopelijk kunnen we AI ook inzetten om metadata te maken.

Kortom, als je inspiratie zoekt voor het toepassen van AI bij archieven, ga dan eens buurten bij onze collega’s van e-discovery. En kijk eens naar de tools die zij gebruiken.