Wat betekenen LLM's als ChatGPT voor digitale preservering: blog 4

  • nov 2023
  • NDE Preservation Watch
  • ·
  • Aangepast 28 jun
  • 65
  • 1
NDE Preservation Watch
Preservation Digitaal Erfgoed
  • Reem Weda
  • Lizanne Gille - van der Zweth
  • Geert Leloup
  • Verwijderde gebruiker
  • Annelot Vijn

Samenvatting

In deze vierde blog spreek ik expert Simon Kemper (Nationaal Archief) over de ethische aspecten van LLM’s, het fine-tunen van open source LLM’s zoals Mistral AI in het KBLab en het preserveren van LLM’s zelf.

In deze serie geven we antwoord op de vraag: Wat kunnen ChatGPT en andere Large Language Models (LLM’s) betekenen voor het erfgoedveld en voor digitale preservering en toegankelijkheid?

Auteur: Heleen Wilbrink (Aincient)

Introductie

Dit is de vierde blog in een serie over ChatGPT en andere Large Language Models (LLM’s), vanuit het NDE-programma Preservation Watch. In deze serie wordt onderzocht wat de kansen en risico’s zijn voor het erfgoedveld in de breedte en in het bijzonder voor digitale preservering, metadatamodellen en -standaarden. Ook komt aan bod hoe de AI-modellen zelf beschreven en gepreserveerd zouden kunnen worden. De drie eerdere blogs zijn hier terug te lezen: blog 1, blog 2 en blog 3.

Ethische aspecten van LLM’s

In deze blog spreek ik Simon C. Kemper over zijn ervaringen met LLM’s. Simon is datawetenschapper bij het Nationaal Archief, mede-oprichter van TextPast en werkt daarnaast mee aan een LLM-project bij het KBLab van de Koninklijke Bibliotheek (KB). Ik vraag hem hoe hij aankijkt tegen de ethische aspecten van LLM’s. Simon vertelt: “Helaas kleven er meerdere nadelen aan LLM’s op ethisch gebied. Ten eerste is de slimheid van deze machines niet puur kunstmatig tot stand gekomen, maar ook door continue input van mensen van vlees en bloed. Zo zijn de omstandigheden van arbeiders in landen zoals Kenia en Indonesië slecht, zij moeten verschrikkelijke content uit de donkerste hoeken van het web beoordelen om LLM’s te trainen. Grote bedrijven zoals OpenAI outsourcen dit werk aan kleinere bedrijven ver van huis, maar zij blijven de uiteindelijke belanghebbenden van deze dubieuze praktijken.”

Grote mentale schade

Een artikel van The Guardian (1) legt uit hoe dit in zijn werk gaat (vertaald uit het Engels): “Om Bard, Bing of ChatGPT te leren prompts (opdrachten) te herkennen die schadelijk materiaal zouden kunnen genereren, moeten algoritmen gevoed worden met voorbeelden van haat zaaiende uitlatingen, geweld en seksueel misbruik”. Bij het bedrijf Sama, dat in opdracht werkte voor OpenAI, moesten contentmoderatoren teksten en afbeeldingen reviewen met “grafische scènes van geweld, zelfbeschadiging, moord, verkrachting, necrofilie, kindermisbruik, bestialiteit en incest,” aldus The Guardian. Dat deden zij zonder van tevoren geïnformeerd te zijn over de aard van het werk, zonder de juiste begeleiding en voor een laag uurloon, met grote mentale schade tot gevolg.

Simon vertelt: “De directrice van Signal, Meredith Whittaker, beschrijft dit als een neo-koloniale ontwikkeling waarin het werk voor een kleine groep bevoorrechte mensen (waaronder uiteraard wijzelf) vergemakkelijkt wordt door het bloed, zweet en tranen van arbeiders in lagelonenlanden.” In een recent artikel stelt Whittaker met haar co-auteurs (vertaald uit het Engels): “De onzekerheid, schade en koloniale dynamiek van deze arbeidspraktijken roepen een groot aantal serieuze vragen op over de kosten en gevolgen van grootschalige AI-ontwikkeling in het algemeen”. (2) Tegelijkertijd noemen zij een klein lichtpuntje met betrekking tot de Keniaanse contentmoderatoren: “De werknemers [van Sama] hebben zich sindsdien verenigd in een vakbond en hebben een petitie ingediend bij de Keniaanse Nationale Vergadering om onderzoek te doen naar het welzijn en de arbeidsomstandigheden van Kenianen die dergelijke diensten verlenen en of die voldoen aan de bescherming tegen uitbuiting en het recht op eerlijke beloning en redelijke arbeidsvoorwaarden” (zie eveneens voetnoot 2).

Zorgen om impact op creatieve beroepen en schending van rechten

Als aanvulling op het verhaal van Simon noem ik (Heleen) graag het EuropeanaTech panelgesprek over ethiek en AI dat plaatsvond in oktober 2023 (3). Panellid Andrea Stern vertelde dat zij zich zorgen maakt over de impact van LLM’s op de inkomsten van fotografen, kunstenaars en auteurs en over het gebruik van hun kunstwerken voor het trainen van LLM’s zonder dat daarvoor betaald wordt. Zij haalde de rechtszaken aan die Matthew Butterick samen met anderen heeft aangespannen tegen Stable Diffusion van Stability AI, OpenAI’s ChatGPT en Llama van Meta. Een verdienmodel voor creatieve beroepsgroepen zou volgens haar kunnen zijn dat de makers betaald worden voor het ter beschikking stellen van hun werken voor het trainen van LLM’s.

Ethische bezwaren volgens ChatGPT zelf

Ik vroeg ook ChatGPT zelf naar de ethische bezwaren van LLM’s en kreeg een in mijn ogen overtuigend antwoord. “De ontwikkeling en implementatie van grote taalmodellen, zoals het model waarmee je nu communiceert, gaan gepaard met verschillende ethische bezwaren. Hier zijn enkele van de belangrijkste ethische zorgen die verband houden met deze modellen: 1. Gebrek aan controle over gegenereerde inhoud, 2. Bias en discriminatie, 3. Privacy, 4. Milieubelasting, 5. Werkloosheid en automatisering, 6. Onbedoeld gebruik, 7. Verantwoordelijkheid en aansprakelijkheid, en 8. Toegankelijkheid. (4)

Simon waarschuwt echter voor dit soort themalijsten, hoe belangrijk deze acht individuele onderwerpen ook zijn. “Juist de vaagheid omtrent ‘open source’, de dubbele belangen van multinationals en de negatieve effecten voor artiesten, lageloonarbeiders en andere makers van de trainingsdata worden hier bewust — en met bewust doel ik op de manier waarop dit model is getraind en afgestemd — niet in genoemd. Daarnaast benadrukken punten 1, 2, 3, 5, 6, 7 en 8 heel subtiel (5) dat open source modellen (de concurrenten van OpenAI) maar gevaarlijk zijn en tot een wildgroei van onethische applicaties kunnen leiden, iets waar Sam Altman (de CEO van OpenAI) ook tijdens zijn bezoeken aan het Amerikaanse Senaat en Europees leiders de nadruk op legde. ChatGPT en vergelijkbare chatbots zijn meesters in het framen: korte goed geformuleerde antwoorden geven de gebruiker makkelijk toegang tot ogenschijnlijk betrouwbare informatie, maar daardoor vergeet men al snel dat deze informatie op grote schaal gestuurd en gecensureerd wordt.”

“Ik geef zonder meer toe dat ChatGPT/GPT-4 zeer gebruiksvriendelijk is en de leesbaarheid goed”: gaat Simon verder. De gegenereerde content uit dit model zet de norm voor onze eigen LLM initiatieven. Helaas heeft het door zijn closed source opzet ook serieuze beperkingen. Daarnaast weet ChatGPT vrijwel niets over obscure onderwerpen uit archieven, het is tenslotte geen Knowledge Graph zoals de platforms van Wikimedia maar een soort papegaai die mensen na kan praten en overtuigde tekst uitkraait.”

Open source LLM

Simon vertelt: “Het lijkt mij wenselijk dat wij in de Nederlandse erfgoedwereld onze eigen LLM en RAG-systemen (retrieval-augmented generation) ontwikkelen in samenwerking met Europese partners waarin de antwoorden van bots voldoen aan onze eigen maatstaven en niet die van OpenAI, Meta en Microsoft. Zelfs met intensieve fine-tuning en RAG-systemen blijft het gissen wat er in de diepste lagen van de LLM modellen gebeurt. We kunnen het ons niet veroorloven met zwarte dozen te werken indien dat tot sterk geframede antwoorden leidt over gevoelige onderwerpen als slavernij, de bijzondere rechtspleging na de Tweede Wereldoorlog of hedendaagse onderwerpen met historische gelaagdheid als de oorlog in Gaza/Israël. Mark Zuckerberg (de CEO van Meta) heeft zich stellig uitgesproken over deze zeer complexe oorlog met shadow banning op Facebook en Instagram ten gevolge. De gevolgen van dit soort censuur zijn binnen LLM’s als Llama nauwelijks te overzien. (6)”

“Open source LLM’s zijn een serieuze tegenhanger van de LLM’s van grote commerciële bedrijven, onder andere vanwege de genoemde ethische bezwaren die kleven aan de commerciële LLM’s”: gaat Simon verder. “Ik heb geëxperimenteerd met het fine-tunen van open source LLM RedPajama en ben samen met Willem Jan Faber (KB) van het KBLab en Thomas Smit en Melvin Wevers (Universiteit van Amsterdam) begonnen met het fine-tunen van Mistral AI (open source LLM van een drietal voormalige toponderzoekers van Meta en Alphabet DeepMind), in combinatie met het ontwikkelen van een RAG-systeem. Door de combinatie met een RAG-systeem kunnen antwoorden van de LLM op nauwkeurigheid gecheckt worden. Deze pilot duurt enkele maanden en is gericht op het doorzoekbaar maken van de ANP radiobulletins die behoren tot de collectie van de KB. Het is interessant om erfgoed straks op een andere manier te kunnen bevragen. Vanuit mijn werk bij het Nationaal Archief denk ik ook na met collega’s over hoe LLM’s in de toekomst ingezet kunnen worden. Vooral de interne inzet van LLM’s zien wij als een optie, bijvoorbeeld om collega’s sneller vragen van bezoekers te kunnen laten beantwoorden.”

“Voor deze pilot maakten we aanvankelijk gebruik van van Llama 2 van Meta. Dit model wordt door Meta als ‘open source’ bestempeld, maar een deel van de informatie over dit model is niet vrijgegeven. Het is bijvoorbeeld niet bekend op welke data het model precies getraind is. (7) Een meer transparant alternatief is Mistral AI. Daarnaast werkt dit model ook efficiënter. Natuurlijk is de kwaliteit nog niet gelijk aan GPT-4, maar we kunnen ermee overweg. Op de lange termijn vallen (grotendeels) open source modellen en zelfgebouwde RAG-systemen ook veel beter af te stemmen op onze eigen erfgoeddata en het historisch taalgebruik waarin veel van onze bronnen geschreven zijn. Ik hoop dat verdere samenwerking binnen de Europese erfgoedwereld en met archiefpartners in landen als Indonesië en Zuid-Afrika zal leiden tot een model dat OpenAI ver achter zich laat bij het beantwoorden van vragen over ons gedeeld erfgoed. Het zou een interessant vervolg op deze pilot zijn om met verschillende erfgoedinstellingen in nationaal verband een open source LLM te trainen. In Duitsland hebben ze dit al voor elkaar. Het lijkt me dat het Netwerk Digitaal Erfgoed hierin een voortrekkersrol kan spelen.”

Dat lijkt mij (Heleen) een mooi initiatief. Ikzelf heb op verschillende gelegenheden interesse gepolst voor een dergelijk initiatief. Meerdere instellingen hebben interesse, maar er komt tegelijkertijd ook heel wat bij kijken. Tijdens een panelgesprek over de adoptie van AI tijdens EuropeanaTech (8) stelde ik panellid Manuel Herranz de vraag of een open source LLM voor erfgoed een nationaal of meertalig (en internationaal) initiatief zou moeten zijn. Herranz is van mening dat brede training op meertalige content de beste aanpak is. Simon wijst erop dat er reeds een variant van Mistral AI bestaat, genaamd Zephyr, dat bijzonder goed scoort op het verwerken en reageren op teksten uit meerdere talen en wellicht een goede basis vormt voor een dergelijk initiatief.

Komst van GPT-NL

“Nederland start bouw GPT-NL, als eigen AI-taalmodel”: aldus het persbericht van SURF van afgelopen 2 november. (9) Na het interview en schrijven van dit blog werd dit nieuws bekend, een hele interessante ontwikkeling. De non-profitpartijen TNO, NFI en SURF gaan samen het model ontwikkelen, met financiering van het ministerie van EZK. Wie weet wat dit voor het erfgoedveld zou kunnen betekenen.

Preserveren van LLM’s

Simon vertelt dat het van belang is om alle versies van de open source LLM’s te preserveren. “Het Data Archiving and Networked Services (DANS) expertisecentrum zou daar een gepast instituut voor zijn.” Helaas is dit niet mogelijk voor de commerciële LLM’s. Ik sprak ook met Annelot Vijn en Eva van den Hurk-van ’t Klooster van de Preservation Watch over het preserveren van LLM’s. Zij geven aan dat het in ieder geval belangrijk is om te registreren met welke LLM en welke versie je gewerkt hebt, bijvoorbeeld in het proces van het structureren van metadata. Mocht de LLM onderdeel zijn van een pipeline aan bewerkingsstappen, dan moeten ook deze verschillende stappen of componenten geregistreerd worden.

Tot slot: dank aan Simon, Eva en Annelot voor het delen van jullie ervaringen en inzichten!

Voetnoten

(1) ‘It’s destroyed me completely’: Kenyan moderators decry toll of training of AI models, Niamh Rowe, The Guardian, augustus 2023. Dit citaat is vertaald uit het Engels.

(2) Open (For Business): Big Tech, Concentrated Power, and the Political Economy of Open AI, David Gray Widder, Sarah West, en Meredith Whittaker, augustus 2023, pagina 10. Dit citaat is vertaald uit het Engels.

(3) Diverse, open and ethical cultural data in the era of machine learning, panelgesprek tijdens EuropeanaTech met Stefan Luca, Mia Ridge, Andrea Stern, Frederik Truyen, Jörg Lehmann en Steven Claeyssens, 11 oktober 2023.

(4) Het antwoord van ChatGPT is voor deze blog ingekort: de toelichting per punt is hier weg gelaten.

(5) Simon refereert naar het uitgebreide antwoord van ChatGPT, dat Simon tot zijn beschikking had.

(6) Shadow banning: de schimmige manier waarop sociale media het bereik van vooral pro-Palestijnse berichten beperken, Toon Beemsterboer, NRC, 18 oktober 2023.

(7) Meer informatie is te vinden in de blog The mirage of open-source AI: Analyzing Meta’s Llama 2 release strategy van Alek Tarkowski, 11 augustus 2023.

(8) Opportunities and challenges in the adoption of AI Technologies in the cultural heritage domain, panelgesprek tijdens EuropeanaTech met Manuel Herranz, Marco Rendina, Sofie Taes, Eirini Kaldeli, Giles Bergel en Victor de Boer, 12 oktober 2023.

(9) Nederland start bouw GPT-NL, als eigen AI-taalmodel. Persbericht van SURF, 2 november 2023.

Leeslijst

Over de auteur

Ik ben Heleen Wilbrink, Egyptologe van origine, en ik werk sinds een aantal jaar vanuit mijn bedrijf Aincient aan het ontsluiten van erfgoed met behulp van Artificial Intelligence (AI). Daarnaast ben ik als programmamanager Digitale Toegankelijkheid en teamcoördinator bij het Het Utrechts Archief bezig om samen met mijn collega’s AI-toepassingen en Linked Open Data (LOD) te implementeren.

De hele serie:

Blog 1: Verkenning

Blog 2: Toegankelijkheid

Blog 3: Data Structureren

Blog 4: Ethische Aspecten

Blog 5: GPT-NL en doorzoekbaarheid

Trefwoorden