Wat betekenen LLM's als ChatGPT voor digitale preservering: blog 3

okt 2023
NDE Preservation Watch
·
Aangepast jun 2024
503

Samenvatting

In deze derde blog leren we hoe ongestructureerde data worden gestructureerd en gematcht met gecontroleerde vocabulaires voor een museumtool, of een ChatGPT plugin kan helpen met de vindbaarheid van digitaal erfgoed en tot slot wat wij als erfgoedsector kunnen betekenen voor LLM’s.

We spreken we de experts Etienne Posthumus (Allard Pierson) en Bob Coret (Netwerk Digitaal Erfgoed en Coret Genealogie).

In deze serie geven we antwoord op de vraag: Wat kunnen ChatGPT en andere Large Language Models (LLM’s) betekenen voor het erfgoedveld en voor digitale preservering en toegankelijkheid?

Auteur: Heleen Wilbrink (Aincient)

Introductie

Dit is de derde blog in een serie over ChatGPT en andere Large Language Models (LLM’s), vanuit het NDE-programma Preservation Watch. Deze serie onderzoekt de kansen en risico’s voor het erfgoedveld in de breedte en in het bijzonder voor digitale preservering, metadatamodellen en -standaarden. Ook komt aan bod hoe de AI-modellen zelf beschreven en gepreserveerd zouden kunnen worden. De eerste (introductie)blog is hier terug te lezen. De tweede blog behandelt het belang van gestructureerde data om de vindbaarheid van digitaal erfgoed te vergroten en biedt praktijkvoorbeelden waarin LLM’s worden ingezet. In deze derde blog duiken we dieper in dit onderwerp.

Things, not strings

Etienne Posthumus werkt vanuit het Allard Pierson (onderdeel van de Bibliotheek UvA/HvA), aan het project Creative User Empowerment (CUE), in samenwerking met het Badisches Landesmuseum Karlsruhe (1). “Wij experimenteren met LLM’s voor gebruik in de open source tool xCurator. Gebruikers krijgen met deze tool gepersonaliseerde toegang tot de museumcollecties. Zij kunnen straks bijvoorbeeld de collecties verkennen op basis van materiaalsoorten, zoals gips of papier.”

“We lopen echter tegen het probleem aan dat materiaalsoorten in de objectbeschrijvingen tekstueel zijn beschreven; het zijn ‘text strings’. Deze beschrijvingen willen we omzetten naar termen uit een gecontroleerde vocabulaire, zoals de Nederlandse versie van de Art & Architecture Thesaurus (AAT) van het Getty Research Institute. Dit wordt reconciliation genoemd. Zo maken we ‘things’ van ‘strings’.”

Ideeën van de Data-Doe-Dag in de praktijk gebracht

“Samen met Marjolein Beumer (Bibliotheek UvA/HvA) heb ik tijdens een workshop ‘Spelen met erfgoeddata in ChatGPT’ ideeën gepresenteerd om LLM’s te gebruiken voor reconciliation. Deze workshop maakte deel uit van de Data-Doe-Dag van het NDE afgelopen april. De afgelopen weken hebben we onze ideeën in de praktijk kunnen brengen. We zijn erin geslaagd om materiaalbeschrijvingen uit de beeldbank van het Allard Pierson te koppelen aan de Nederlandse AAT, gebruikmakend van SPARQL, een Python-script en GPT-4.”

Etienne legt uit hoe dat in zijn werk gaat: “Eerst heb ik alle Nederlandstalige materiaalsoorten in de AAT opgevraagd met een SPARQL query bij het SPARQL endpoint van The Getty Vocabularies. Daarna heb ik met een Python-script de materiaalbeschrijvingen gematcht met de AAT-lijst.”

“In deze resultaten zit nog ruis; je krijgt te veel matches en die zijn niet allemaal correct. Als de materiaalbeschrijving van een museumobject bijvoorbeeld ‘papier, waterverf, inkt’ is, dan geeft het Python-script zeven matches met de AAT, terwijl dat er eigenlijk maar drie zouden moeten zijn. Naast de term voor papier (vezelproduct) krijg ik ook de term voor papier-maché, omdat ‘papier’ hierin voorkomt.”

“Ik gebruik GPT-4 om de ruis in de lijst met matches zo veel mogelijk te verminderen. Dit doe ik door de lijst met de oorspronkelijke beschrijving en de matches op basis van het Python-script door GPT-4 te halen, met de vraag de lijst te filteren en de juiste termen uit de AAT te selecteren.”

“Dit blijkt goed te werken, aangezien de zeven matches voor ‘papier, waterverf, inkt’ worden teruggebracht naar de juiste drie. Dit leidt tot een mooie tijdsbesparing, al zullen de resultaten nog wel door conservatoren moeten worden gecheckt. Bovendien kan deze oplossing worden ingezet voor andere type beschrijvingen in onze collecties,” voegt Etienne toe.

Afbeelding gemaakt met DALL-E. Prompt: “A painting in the style of Surrealism of how AI makes heritage discoverable”.

ChatGPT plugin voor de vindbaarheid van digitaal erfgoed

Bob Coret (NDE en Coret Genealogie) heeft sinds de komst van ChatGPT al aardig wat experimenten gedaan met erfgoed en LLM’s. Zijn bevindingen deelt hij in blogs (te vinden in de leeslijst hieronder). Zo heeft hij een plugin voor ChatGPT gemaakt van zijn website Open Archieven. Hiermee kunnen gebruikers met een betaald ChatGPT-abonnement de informatie op Open Archieven bevragen via de interface van ChatGPT.

In zijn blog laat hij zien dat dit in sommige gevallen al behoorlijk goed gaat. ChatGPT begrijpt welke vragen aan Open Archieven gesteld moeten worden en begrijpt ook de resultaten, waardoor er goede antwoorden komen mét bronverwijzingen.

Voor deze Preservation Watch-blog spraken we Bob over plugins en andere aspecten van LLM’s. Bob: “Ik zie mogelijkheden om erfgoedwebsites te bevragen met plugins. Op dit moment zijn er nog weinig providers die, zoals OpenAI, de optie van een plugin bieden, maar ik verwacht dat dit aantal zal toenemen. Op deze manier kun je digitaal erfgoed op een andere manier doorzoeken en bovendien verwijzingen vinden naar de erfgoedbronnen zelf. Deze verwijzingen zouden moeten leiden tot minder hallucinaties in de antwoorden.”

“Mocht je als erfgoedinstelling een plugin overwegen, dan is het goed om te weten dat je een API nodig hebt van je eigen erfgoedwebsite (1). Voor de beschrijving van deze API dien je de OpenAPI-standaard te volgen.”

Wat kan het erfgoedveld betekenen voor Large Language Models?

Bob stelde deze vraag in reactie op de eerste blog uit deze serie op het KIA-platform. Hierover gingen Bob en ik (Heleen) met elkaar in gesprek. Bob vertelt: “LLM’s hebben data nodig om te leren, en erfgoedinstellingen beschikken over aanzienlijke hoeveelheden data. Als sector ontsluiten wij de kennis over erfgoedbronnen, onder andere in de vorm van linked open data (LOD), waarmee LLM’s en andere AI-modellen verbeterd kunnen worden. Voorbeelden van use cases zijn het verbeteren van transcripties gemaakt met OCR (Optical Character Recognition) en HTR (Handwritten Text Recognition) en de eerder genoemde verwijzingen door LLM’s naar de bronnen zelf. Googles LLM Bard presteert al iets beter in het geven van de juiste bronverwijzingen dan andere LLM’s.”

Enkele observaties vanuit het oude Egypte

Ik (Heleen) heb enkele experimenten uitgevoerd met Bard met betrekking tot objecten uit het oude Egypte. Wat mij opvalt is dat een aanzienlijk deel van het antwoord klopt als ik een foto van een object upload en informatie vraag. Bovendien is het antwoord in begrijpelijke tekst geschreven, hoewel er ook fouten in voorkomen.

Zo heb ik bijvoorbeeld een upload gedaan van een stèle (gedenksteen) uit het Rijksmuseum van Oudheden in Leiden. De beschrijving van de stèle (in het Engels in Bard) lijkt sterk op de beschrijving die in het Nederlands te vinden is op de website van het museum. Wanneer ik echter vraag in welk museum de stèle te vinden is, geeft Bard aanvankelijk "British Museum" in Londen als antwoord. Na mijn feedback corrigeert Bard dit naar het juiste museum, namelijk Leiden.

Screenshot van Bard (Google) met een geüploade foto van de stèle van Penserd uit het Rijksmuseum van Oudheden.

Dit is me ook eerder overkomen met een stèle uit Berlijn, waarvan Bard aanvankelijk dacht dat deze afkomstig was uit het Metropolitan Museum of Art in New York. Ik heb de indruk dat de museumcollecties die online zeer sterk vertegenwoordigd zijn, vaker genoemd worden als herkomst, zelfs als dit feitelijk onjuist is. Komt dit doordat de LLM’s getraind zijn op deze data? Ook krijg ik vaker bronvermeldingen naar objecten uit deze collecties wanneer ik vraag om voorbeelden van bepaalde typen objecten.

Heb je vragen, opmerkingen of suggesties voor aandachtsgebieden in de volgende blog? Ik zie je reactie graag tegemoet onderaan dit artikel.

Tip

Wil je meer weten over AI, preservering en ethiek? Schrijf je dan in voor de Werelddag van de digitale duurzaamheid 2023 op 2 november in Breda, mede georganiseerd door het NDE, en kom naar sessie 4 “De diepte in met techniek en ethiek”. Daniël Steinmeier (Koninklijke Bibliotheek) en ik (Heleen) geven vanaf 13.45 een presentatie over AI, preservering en ethiek: van filosofie naar praktijk.

Tot slot: dank aan Etienne en Bob voor het delen van jullie ervaringen!

Voetnoten

(1) Meer informatie over het maken van een plugin is hier te vinden: https://platform.openai.com/docs/plugins/introduction.

Leeslijst

Open Archieven als plugin voor ChatGPT. Blog van Bob Coret over het bevragen van Open Archieven met de plugin van ChatGPT, juni 2023.
Spelen met ChatGPT vanuit SPARQL (GraphDB). Blog van Bob Coret waar o.a. de inzet van ChatGPT aan bod komt voor het reconciliëren van termen, juli 2023.
Wil je meer weten over LLM’s? Bekijk dan de video (6 minuten) “How do Large Language Models work?” van Jelle Zuidema (UvA) via zijn LinkedIn post.

Over de auteur

Ik ben Heleen Wilbrink, Egyptologe van origine, en ik werk sinds een aantal jaar vanuit mijn bedrijf Aincient aan het ontsluiten van erfgoed met behulp van Artificial Intelligence (AI). Daarnaast ben ik als programmamanager Digitale Toegankelijkheid en teamcoördinator bij het Het Utrechts Archief bezig om samen met mijn collega’s AI-toepassingen en Linked Open Data (LOD) te implementeren. De opvattingen in deze blogserie geven mijn eigen mening weer.

De hele serie:

Blog 1: Verkenning

Blog 2: Toegankelijkheid

Blog 3: Data Structureren

Blog 4: Ethische Aspecten

Blog 5: GPT-NL en doorzoekbaarheid

Deel

Help

Wat betekenen LLM's als ChatGPT voor digitale preservering: blog 3

Samenvatting

Introductie

Things, not strings

Ideeën van de Data-Doe-Dag in de praktijk gebracht

ChatGPT plugin voor de vindbaarheid van digitaal erfgoed

Wat kan het erfgoedveld betekenen voor Large Language Models?

Enkele observaties vanuit het oude Egypte

Heb je vragen, opmerkingen of suggesties voor aandachtsgebieden in de volgende blog? Ik zie je reactie graag tegemoet onderaan dit artikel.

Tip

Voetnoten

Leeslijst

Over de auteur

De hele serie:

Trefwoorden

Deel

Help

Wat betekenen LLM's als ChatGPT voor digitale preservering: blog 3

Samenvatting

Introductie

Things, not strings

Ideeën van de Data-Doe-Dag in de praktijk gebracht

ChatGPT plugin voor de vindbaarheid van digitaal erfgoed

Wat kan het erfgoedveld betekenen voor Large Language Models?

Enkele observaties vanuit het oude Egypte

Heb je vragen, opmerkingen of suggesties voor aandachtsgebieden in de volgende blog? Ik zie je reactie graag tegemoet onderaan dit artikel.

Tip

Voetnoten

Leeslijst

Over de auteur

De hele serie:

Trefwoorden

Verken

Bias in metadata 1: Monitoring advances in the field of AI, with an emphasis on bias

No Time to Wait 6: last chance to register

iPres 2022 Announces Full Indicative Program (12-16 September 2022)