Wat betekenen LLM's als ChatGPT voor digitale preservering: blog 5

  • nov 2023
  • NDE Preservation Watch
  • ·
  • Aangepast jun 2024
  • 1
  • 1
  • 365
  • Verwijderde gebruiker
NDE Preservation Watch
Preservation Digitaal Erfgoed
  • Reem Weda
  • Esther Uiterlinden
  • Janneke Polderman
  • Giessen Renier van de
  • André Skyaasen
  • Jonna van Zijl
  • Elsbeth Kwant
  • Verwijderde gebruiker

Samenvatting

In deze vijfde en laatste blog spreek ik Saskia Lensink (TNO) over het nieuwe initiatief GPT-NL en Muriël Valckx (Zeeuws Archief) over de tool ArchiveTextMiner voor het verbeteren van de doorzoekbaarheid van documenten.

In deze serie geven we antwoord op de vraag: Wat kunnen ChatGPT en andere Large Language Models (LLM’s) betekenen voor het erfgoedveld en voor digitale preservering en toegankelijkheid?

Auteur: Heleen Wilbrink (Aincient)

Introductie

Dit is de vijfde en laatste blog in een serie over ChatGPT en andere Large Language Models (LLM’s), vanuit het NDE-programma Preservation Watch. In deze serie wordt onderzocht wat de kansen en risico’s zijn voor het erfgoedveld in de breedte en in het bijzonder voor digitale preservering, metadatamodellen en -standaarden. De vier eerdere blogs zijn hier terug te lezen: blog 1, blog 2, blog 3 en blog 4.

GPT-NL: de ontwikkeling van een nieuw Nederlands AI-taalmodel

In de vorige blog werd al kort de komst gemeld van GPT-NL, een nieuw Nederlands taalmodel. De non-profitpartijen TNO, NFI en SURF gaan samen het model ontwikkelen, met een financiering van 13,5 miljoen euro vanuit de RVO / het ministerie van EZK. (1) Ik ben heel blij dat voor deze blog Saskia Lensink bereid was om meer te vertellen over GPT-NL en de mogelijkheden voor het erfgoedveld. (2) Saskia werkt als NLP-expert (Natural Language Processing) bij TNO mee aan de ontwikkeling van GPT-NL. Zij vertelt: “Het doel van GPT-NL is om een Nederlandse LLM te ontwikkelen. Een Nederlands model waarvan we precies weten waar het op getraind is, die onze waarden reflecteert en waarvan de data op Nederlandse bodem blijven. Dit draagt bij aan onze digitale soevereiniteit. Daarnaast bouwen we op deze manier belangrijke kennis op over dergelijke modellen.”

Saskia gaat verder: “Het programma bestaat uit twee fasen, verdeeld over 3 jaar. In de eerste fase, die loopt tot eind 2024, verzamelen we de data en ontwikkelen we het foundation model (grondmodel). Fase twee bestaat uit de exploitatiefase en het onderhoud van het model. In deze fase onderzoeken we onder andere wat de use cases zijn voor verschillende gebruikersgroepen en hoe het beheer voor de lange termijn ingericht gaat worden. Wij werken zonder winstoogmerk. Wat betreft de pricing zullen wij drie tarieven hanteren: 1. Gratis gebruik voor onderzoeksinstellingen, 2. Gereduceerd tarief voor niet-economische activiteiten en 3. Normaal tarief voor commercieel gebruik.”

GPT-NL en de erfgoedsector

In de interviews van de afgelopen blogs werd regelmatig de behoefte uitgesproken aan een eerlijker en transparanter alternatief voor de commerciële LLM’s zoals ChatGPT. GPT-NL zou een mooie manier kunnen zijn om aan die behoefte te voldoen. Verschillende use cases vanuit onze sector zijn aan bod gekomen, zoals het creëren en verbeteren van metadata en het doorzoeken van digitaal erfgoed. Saskia vindt het fijn dat er interesse is vanuit de erfgoedsector en is voorstander van samenwerking. Zij vertelt: “Het zou een mooie stap voorwaarts zijn als circa 10% van de potentiële trainingsdata voor GPT-NL kan komen uit de erfgoedsector. Ik zou zeggen: doneer je data! Platte tekst is waarschijnlijk de beste vorm om op te trainen, al raak je dan ook een deel van waardevolle metadata kwijt. Er wordt ook gekeken naar dataspaces. De sectoren gezondheid (health) en transport (mobility) zijn hier al ver in gevorderd.”

“De komende tijd willen wij met experts en bronhouders de potentiële databronnen analyseren. Welke data zijn er, in welke vorm en met welke rechten? Hoe gaan we om met bias in historische bronnen en met HTR/OCR fouten? Willen we het foundation model gaan trainen met historische bronnen of gebeurt dat tijdens het fine-tunen van het model?” Ik (Heleen) heb voorgesteld om in januari met Saskia en een aantal erfgoedexperts met kennis van data en LLM’s bijeen te komen om deze onderwerpen te spreken. Daar is zij zeer enthousiast over. Ik ga onderzoeken hoe we dit mogelijk kunnen maken!

Waarden en transparantie

Saskia gaat verder: “Wij willen zo goed mogelijk rekening houden met de Nederlandse en Europese waarden, maar we weten nooit 100% zeker wat er als output uit het model komt. Wel kunnen we bepalen met welke data we het model voeden zodat dit op een verantwoorde manier gebeurt, met respect voor het eigenaarschap van data. Daar zullen we onze beste data- en AI-experts op gaan inzetten, al zullen we ook hier niet 100% van de inputdata kunnen checken. Daarom willen wij de curatie van de data ook in de publieke ruimte laten afspelen, waarbij een breed publiek kan worden betrokken om de data goed te krijgen.”

“Een zo breed mogelijke transparantie wordt nagestreefd, maar wij (consortium van GPT-NL) willen geen misbruik van GPT-NL. Bijvoorbeeld voor toekomstige toepassingen voor de politie willen we niet criminelen in de kaart spelen. Ook willen we het model, dat met publieke middelen wordt ontwikkeld, niet op een presenteerblaadje aanbieden aan grote technologische spelers en “concurrenten” zoals OpenAI en Microsoft. Ook willen we voorkomen dat een exacte kopie van het model, hertraind op een hoop ellende, voor gevaar kan zorgen. We onderzoeken of we goed gebruik kunnen stimuleren met bijvoorbeeld RAIL (Responsible AI Licenses).”

Regulatie

Gevraagd naar haar mening over het voornemen van demissionair staatssecretaris Alexandra van Huffelen om AI-software zoals ChatGPT voor ambtenaren te verbieden (3), reageert Saskia: “Wij zijn gebaat bij goede regulering, maar er zijn meerdere kanten van het verhaal. Er is ook een discussie of sterke regulering, vanuit onder meer Europa, goed is voor het bedrijfsleven. Bedrijven zijn bang dat zij door de strenge regulering niet concurrerend kunnen blijven en dat talent naar andere delen van de wereld zal vertrekken. Ik ben van mening dat we niet achterover moeten leunen en als Europa zelf stappen moeten nemen. Dat doen wij nu met de ontwikkeling van dit model. Hierin werken wij ook op Europees niveau samen met landen die deel zijn van de Germaanse taalfamilie binnen het consortium ‘Trust LLM’. We mogen iets meer loslaten, durven en het heft in eigen hand nemen.”

Text mining voor archiefbeheer met de tool ArchiveTextMiner

Voor deze laatste blog heb ik ook Muriël Valckx geïnterviewd. Zij is data scientist en trainee Informatiemanagement (Zeeuws Archief) en heeft in samenwerking met Simon Pouwelse (Provincie Zeeland) de tool ArchiveTextMiner gemaakt. Zij legt uit: “Aanleiding voor de tool is een veel voorkomend probleem: veel PDF-documenten hebben incomplete of ontbrekende metadata. Het voorzien van en verrijken van metadata bevordert de doorzoekbaarheid. Simon en ik hebben een tool ontwikkeld die openbare LLM’s en Natural Language Processing (NLP) technieken combineert om waardevolle informatie uit PDF-bestanden te extraheren en om te zetten in metadata.

Tijdens het Symposium Informatiebeheer in een wereld van data op 5 oktober hebben Simon en ik het tussentijds resultaat van de tool gepresenteerd. (4) We hebben een overzicht laten zien met onder andere een korte samenvatting van de PDF-inhoud, bestandstype enzovoorts. Inmiddels zijn we een stukje verder en kunnen we een XML-bestand genereren dat volgens de MDTO-standaard (Metagegevens voor duurzaam toegankelijke overheidsinformatie) is ingericht. We zijn op dit moment bezig met het beschikbaar stellen van de tool via GitHub en hopen dit voor het einde van het jaar te kunnen delen. (5)”

Muriël legt uit hoe de tool werkt (zie ook bovenstaande printscreen): “In het script wordt een ZIP-map met PDF-bestanden verwerkt, waarbij een nieuwe map genaamd “ArchiveTextMiner” ontstaat voor opslag van XML-bestanden volgens het MDTO-formaat. Het script identificeert en verwerkt alle PDF-bestanden door tekstextractie en genereert metadatabestanden in MDTO-formaat in de “ArchiveTextMiner”-map met werktitels, samenvattingen, sleutelwoorden, KVK-nummers, geldige BSN-nummers en het MIME-type van de oorspronkelijke PDF-bestanden. We evalueren nog of we al deze gegevens willen opslaan. Voor de presentatie hebben we openbare documenten gebruikt, maar de tool is voor interne documenten ook geschikt.”

Brede interesse

“Wij zien de ArchiveTextMiner als een lichtgewicht en laagdrempelige tool die open source-modellen bij elkaar brengt. Daardoor konden we op korte termijn resultaat leveren,” gaat Muriël verder. “We wilden weten of we op met deze tool goede metadata zouden kunnen genereren. Dat is gelukt: wij zijn er blij mee en onze collega’s ook. We zien mogelijkheden om hier met datateams mee aan de slag te gaan. Training, fine-tuning en evaluatie kunnen de resultaten verder versterken. Het is daarnaast mooi om te zien dat er in deze vroege fase al een brede interesse in de tool is, van archieven tot provincies en andere overheidsinstellingen. Ik krijg regelmatig aanvragen om uit te leggen hoe de tool werkt. Erfgoedinstellingen hebben behoefte aan tools die innovatie en veiligheid combineren. ArchiveTextMiner voorziet in deze behoefte doordat we gebruik maken van openbare LLM’s die lokaal draaien.”

Tot slot: dank aan Saskia en Muriël voor het delen van jullie ervaringen en inzichten!

Voetnoten

(1) Nederland start bouw GPT-NL als eigen AI-taalmodel, persbericht op de website van TNO, 2 november 2023, en GPT-NL versterkt Nederlandse autonomie, kennis en technologie in AI, informatiepagina op de website van TNO (zonder auteur, zonder datum).

(2) Ik (Heleen) heb de geïnterviewden van de verschillende blogs en de leden van de Preservation Watch gevraagd welke vragen zij aan Saskia Lensink zouden willen stellen over GPT-NL. Deze vragen zijn meegenomen in dit interview. Dank voor de input!

(3) Regering bereidt verbod voor op gebruik AI-software door ambtenaren, artikel van Laurens Verhagen en Peter Olsthoorn in Volkskrant, 16 november 2023.

(4) Doorzoekbaarheid van documenten verbeteren met slimme technieken, LinkedIn bericht van Muriël Valckx over de presentatie, oktober 2023, en de slides van de presentatie van Muriël Valckx en Simon Pouwelse.

(5) Github pagina van het Zeeuws Archief met de ArchiveTextMiner.

Leeslijst

Over de auteur

Ik ben Heleen Wilbrink, Egyptologe van origine, en ik werk sinds een aantal jaar vanuit mijn bedrijf Aincient aan het ontsluiten van erfgoed met behulp van Artificial Intelligence (AI). Daarnaast ben ik als programmamanager Digitale Toegankelijkheid en teamcoördinator bij Het Utrechts Archief bezig om samen met mijn collega’s AI-toepassingen en Linked Open Data (LOD) te implementeren. De opvattingen in deze blogserie geven mijn eigen mening weer.

De hele serie:

Blog 1: Verkenning

Blog 2: Toegankelijkheid

Blog 3: Data Structureren

Blog 4: Ethische Aspecten

Blog 5: GPT-NL en doorzoekbaarheid

Reacties

één reactie, 23 november 2023
  • Dank Heleen, leuk om te lezen! Wij doen als KB via en met Surf ook mee met deze ontwikkeling. Hoe meer NDE hoe beter!

    Elsbeth Kwant

Trefwoorden