Wat betekenen LLM's als ChatGPT voor digitale preservering: blog 2

  • sep 2023
  • NDE Preservation Watch
  • ·
  • Aangepast 28 jun
  • 151
NDE Preservation Watch
Preservation Digitaal Erfgoed
  • Annelot Vijn
  • Rick Companje
  • Bob Coret
  • Reem Weda

Samenvatting

In deze tweede blog onderzoeken we de mogelijkheden om gestructureerde data te maken uit ongestructureerde gegevens. Rick Companje (Het Utrechts Archief) en Niek Verhoeff (Stadsarchief Amsterdam) delen hun ervaringen.

In deze serie geven we antwoord op de vraag: Wat kunnen ChatGPT en andere Large Language Models betekenen voor het erfgoedveld en voor digitale preservering en toegankelijkheid?

Auteur: Heleen Wilbrink (Aincient)

Introductie

Dit is de tweede blog in een serie over ChatGPT en andere Large Language Models (LLM’s), vanuit het NDE-programma Preservation Watch. In deze serie wordt onderzocht wat de kansen en risico’s zijn voor het erfgoedveld in de breedte en in het bijzonder voor digitale preservering, metadatamodellen en -standaarden. Ook komt aan bod hoe de AI-modellen zelf beschreven en gepreserveerd zouden kunnen worden. De eerste blog is hier terug te lezen.

Hoe helpt het creëren van gestructureerde data bij digitale preservering en toegankelijkheid?

Annelot Vijn, onderdeel van de werkgroep Preservation Watch, legt uit: “Gestructureerde data dragen bij aan duurzame preservering en toegankelijkheid. Om duurzaam toegankelijk te zijn, moet informatie aan de volgende DUTO-kenmerken (kenmerken duurzame toegankelijkheid van overheidsinformatie) voldoen: vindbaar, beschikbaar, leesbaar, interpreteerbaar, betrouwbaar en toekomstbestendig (1). Vooral vindbaar is in dit kader relevant. Gebruikers kunnen dankzij gestructureerde data makkelijker erfgoedbronnen vinden. Het is een interessante ontwikkeling als LLM’s kunnen worden ingezet om gestructureerde data te extraheren uit ongestructureerde tekst, en zo een bijdrage leveren aan de duurzame preservering en toegankelijkheid.”

Gestructureerde data uit notariële akten en de beeldbank

Rick Companje vertelt: “Bij Het Utrechts Archief experimenteren we met ChatGPT en andere LLM’s. We hebben bijvoorbeeld een test gedaan met een 17e-eeuwse notariële akte om te onderzoeken of ChatGPT dezelfde informatie uit de transcriptie van een akte wist te extraheren als onze vrijwilligers en collega’s deden. Al vele jaren zijn wij bezig met het annoteren van akten om deze doorzoekbaar te maken voor gebruikers. Tijdens dit proces ontcijferen mensen die vertrouwd zijn met historische teksten, de informatie vanaf scans, zoals type akte, datering, vermelde locaties, personen en hun rollen. De vraag was: kon ChatGPT dit ook doen, bij voorkeur in JSON formaat?

Om te beginnen hadden we een transcriptie van de scan nodig, waarvoor we het Dutchess I-model op Handwritten Text Recognition (HTR) platform Transkribus hebben gebruikt. Die automatische transcriptie hebben we met de hulp van een expert verbeterd. Vervolgens hebben we ChatGPT (de gratis 3.5-versie) gevraagd om de gewenste informatie in JSON formaat terug te geven, zoals in onderstaande printscreen te zien is. Dit was niet geheel foutloos, maar toch behoorlijk goed. Een vorm van kwaliteitscontrole is wel nodig, omdat zowel in de automatische transcripties, als in de output van ChatGPT fouten kunnen voorkomen. Dit experiment hebben we gepresenteerd tijdens de KVAN-workshop 'AI en Archieven' (2).”

Rick ziet ook kansen 7om gestructureerde data uit beschrijvingen te halen. “De beschrijvingen van bijvoorbeeld onze beeldbank zijn op eenzelfde soort manier te structureren. We kunnen bijvoorbeeld vermeldingen van personen en locaties uit de ongestructureerde tekst halen.”

Tot slot vertelt Rick wat hem goed bevalt aan werken met LLM’s in het algemeen: “Als developer gebruik ik CHatGPT de hele dag door. Het grote voordeel is dat je een soort expert hebt die naast je zit. Hierdoor kan ik me sneller ontwikkelen. Uiteraard moet je wel alert zijn om alleen zaken te delen die geen gevoelige informatie bevatten. Mede om die reden heb ik ook interesse in open source alternatieven”.

ChatGPT voor de Amsterdamse Burgerlijke Stand

“Bij het Stadsarchief Amsterdam hebben we experimenten uitgevoerd met ChatGPT en onder andere de Burgerlijke Stand (1811-1922),” legt Niek Verhoeff uit. “De Burgerlijke Stand omvat ruim 3 miljoen akten van geboorte, overlijden en trouwen. Hoewel de scans van de akten online beschikbaar zijn, ontbreekt een digitale index, waardoor de scans moeilijk doorzoekbaar zijn.

We hebben berekend dat het negen jaar zou duren om met menselijke inspanning zo’n index te maken. We hebben ook berekend dat als we gebruikmaken van de OpenAI API met GPT, we dit in ongeveer 150 dagen kunnen realiseren. Hiervoor hebben we allereerst transcripties nodig van alle akten. We hebben in Transkribus een layoutmodel en een HTR hybride model getraind om automatisch de akten op een scans te herkennen en transcripties te maken van de combinatie van geprinte en handgeschreven tekst in de akten.

Inmiddels zijn we bijna zover dat we transcripties hebben van de 3 miljoen akten, zodat we kunnen starten met het maken van de indexen van namen en adressen met de API van GPT (3.5 of 4.0), als gestructureerde data in JSON-formaat.”

Kwaliteitscontrole van de output is ook in dit project belangrijk, zowel voor de JSON-bestanden als voor de inhoud van de indexen. Niek vertelt: “Bij eerdere experimenten met GPT ontdekte ik dat elke keer dat ik een vraag (prompt) stelde, de uitkomst (JSON) net iets anders was. Inmiddels weet ik mijn prompts zo te formuleren dat dit voorkomen wordt, bijvoorbeeld door aan te geven wat wel en niet genest mag worden in JSON. Daarnaast checken we of er valide namen en adressen als output gegeven worden. Dit doen wij door automatisch te controleren of de gevonden spellingsvarianten voorkomen in de bij ons bekende indexen van personen en van adressen (Adamlink). In beide gevallen beschikken we al over een uitgebreide lijst van spellingsvarianten. De output die bij ons nog niet bekend is zullen we extra controleren.”

Ook Niek heeft interesse in open source LLM’s, als alternatief voor GPT: “Het liefst zou ik een open source LLM gebruiken, maar dit is niet heel eenvoudig te realiseren”. In juni hebben Rick, Niek (op afstand) en ik (Heleen), samen met Gerhard de Kok tijdens de KVAN dag de workshop “AI en Archieven” gegeven, waarin we hebben opgeroepen om als erfgoedsector gemeenschappelijk een open source LLM te ontwikkelen. In een volgende blog zal hier meer aandacht aan besteed worden.

Heb je vragen, opmerkingen of suggesties voor aandachtsgebieden in de volgende blogs? Ik zie je reactie graag tegemoet onderaan dit artikel.

Tip om zelf aan de slag te gaan

Wil je zelf aan de slag met LLM’s en erfgoed of je prompts verbeteren? Dan heeft mogelijk deze workshop jouw interesse: Exploring the prompt: introduction to AI image and text generators, and hands-on workshop tijdens EuropeanaTech op 10 oktober. Op de website is informatie over de workshop, het event en tickets te vinden.

Tot slot: dank aan Rick en Niek voor het delen van jullie ervaringen!

Voetnoten

(1) Meer informatie over de DUTO-kenmerken is te vinden op https://www.nationaalarchief.nl/archiveren/kennisbank/module-2-de-duto-kenmerken.

(2) De staat van innovatie. AI en archieven. Presentatie (slides) tijdens de KVAN archiefdag over AI en archieven (o.a. ChatGPT), juni 2023.

Leeslijst

  • Researching Your Heritage Through Large Language Models. Blog van Niek Verhoeff (Stadsarchief Amsterdam) op Amsterdam Intelligence over o.a. het gebruik van LLM’s om transcripties gemaakt met Handwritten Text Recognition (HTR) te structureren, juni 2023.

  • Spelen met ChatGPT. Blog van Niek Verhoeff (Stadsarchief Amsterdam) over experimenten met het structureren van data tijdens themadag “ChatGPT of nie”, februari 2023.

  • Spelen met ChatGPT vanuit SPARQL (GraphDB). Blog van Bob Coret waar o.a. de inzet van ChatGPT aan bod komt voor het reconciliëren van termen, juli 2023.

Over de auteur

Ik ben Heleen Wilbrink, Egyptologe van origine, en ik werk sinds een aantal jaar vanuit mijn bedrijf Aincient aan het ontsluiten van erfgoed met behulp van Artificial Intelligence (AI). Daarnaast ben ik als programmamanager Digitale Toegankelijkheid en teamcoördinator bij het Het Utrechts Archief bezig om samen met mijn collega’s AI-toepassingen en Linked Open Data (LOD) te implementeren. De opvattingen in deze blogserie geven mijn eigen mening weer.

De hele serie:

Blog 1: Verkenning

Blog 2: Toegankelijkheid

Blog 3: Data Structureren

Blog 4: Ethische Aspecten

Blog 5: GPT-NL en doorzoekbaarheid

Trefwoorden