Wat betekenen LLM's als ChatGPT voor digitale preservering: blog 4
Samenvatting: In deze vierde blog spreek ik expert Simon Kemper (Nationaal Archief) over de ethische aspecten van LLM’s, het fine-tunen van open source LLM’s zoals Mistral AI in het KBLab en het preserveren van LLM’s zelf.
Reacties
Met enige verbazing heb ik dit stukje gelezen en geprobeerd het te begrijpen, maar moet helaas zeggen dat me dat niet gelukt is. Het eerste dat ik mij hier afvraag is wat onder significante kenmerken verstaan wordt? Zoals het hier wordt voorgesteld, zijn dit een soort ingrediënten die je naar smaak kunt mengen tot een gerecht (=digitaal object). Wat het dan precies zijn, blijft vaag.
Nu heb ik altijd gedacht dat het NA zich bezig hield met archiefbescheiden die om bepaalde reden(en) bewaard moeten worden, waarbij authenticiteit inderdaad een belangrijk aspect is. Kern is dat die archiefbescheiden (papier of digitaal) bij de uitvoering van overheidstaken om een bepaalde reden zijn binnengekomen of opgemaakt. In digitale vorm zijn archiefbescheiden lastiger te bewaren vanwege de ontwikkelingen in technologie. Daarom is het noodzakelijk dat van die archiefbescheiden de kenmerken worden beschreven/vastgelegd die belangrijk zijn om de authenticiteit te waarborgen, zodat latere gebruikers ervan nog begrijpen waarom ze zijn opgemaakt of ontvangen en wat de betekenis ervan is. Dat zijn de essentiële kenmerken. Het gaat dus om, wat ik noem, de intellectuele aspecten van een archiefstuk. Die kunnen met verschillende technologie (bijv. software, opslagformaat) weergegeven worden.
Kortom, mij is niet duidelijk welke gedachtengang hierachter zit. Misschien kun je dat uitleggen?
Beste Hans,
Jouw verwachtingen komen overeen met onze werkzaamheden. Doordat je wellicht de context van de presentatie van International Digital Preservation Day mist, en ik die hier niet herhaalde, kan de keukenmetafoor de mist in gaan.
Bedoeld werd niet dat we uit de essentiële kenmerken archiefstukken zouden willen kunnen brouwen.
Bedoeld werd wel dat een archiefinstelling bijvoorbeeld met archiefvormers/Producers in gesprek zou moeten gaan over wat zij essentiële kenmerken van hun archiefstukken vinden, zodat die zo goed mogelijk door de tijd heen meegenomen kunnen worden. Niet alle archiefvormers en wellicht ook niet alle archiefinstellingen hebben een beeld bij wat essentiële kenmerken zouden kunnen zijn. Dan helpt het om een lijst kenmerken bij de hand te hebben, waar je het in vrijwel ieder gesprek met Producers over gehad zou moeten hebben: de essentiële essentiële kenmerken. (Je hoeft niet al die kenmerken als essentieel aan te merken, maar je zou ze in ieder geval besproken moeten hebben.) Net als het bij de hand hebben van een aantal basisingrediënten, die je bij het koken van vrijwel iedere maaltijd nodig hebt. (Je hoeft ze niet allemaal te gebruiken, maar je doet er wel verstandig aan ze in huis te hebben.) Of net als het bij de hand hebben van een checklist met dingen waar je minstens aan gedacht moet hebben voordat je de deur achter je dichttrekt als je op vakantie gaat. (Je hoeft niet al die dingen te regelen, maar doet er wel verstandig aan er even over nagedacht te hebben.)
Ik hoop dat ik hiermee wat van je verbazing heb kunnen wegnemen. Zo niet, neem dan gerust direct contact met me op (remco.van.veenendaal@nationaalarchief.nl of 0629451951). We schrijven hier ook een paper over voor de conferentie iPres 2018 in Boston. Daarin leggen we e.e.a. uitgebreider uit.
Hallo Remco,
Dank voor je reactie en toelichting. Dat helpt inderdaad om te begrijpen waar je het over had. Nu ik een wat duidelijker beeld heb, moet ik denken aan het werk dat we in het Planets project (2006-2010) hebben gedaan in het kader van 'preservation planning'. Ook daar hadden we een lijst van mogelijke kenmerken ('ingrediënten' zo je wil) opgesteld om aan te geven welke daarvan 'essentieel' waren. Er is zelfs een begin gemaakt om die in een formele taal te beschrijven, als ik me goed herinner. Ook in het Interpares project kende een 'lijst van kenmerken'. Het is dus niet nieuw waar jullie mee bezig zijn. Ik zou moeten nagaan of ik daar nog verdere informatie over heb (denk het wel). In ieder geval is het wellicht nuttig er eens naar te kijken.