Graag uw nominaties voor de Lijst van Digitaal Bedreigde Soorten
De Digital Preservation Coalition (DPC) nodigt de preserveringsgemeenschap uit om nominaties in te di...
Sinds woensdag 6 september 2023 is een basisgids over persistent identifiers (PID’s) publiek beschikbaar. Deze door mij geschreven gids was eerst een maand alleen beschikbaar voor leden van de Digital Preservation Coalition (DPC).
PID’s zijn een oplossing voor gebroken links (URL's), die bijvoorbeeld optreden als je domeinnaam verandert of als je andere systemen gaat gebruiken. Erg vervelend, als je favoriete scan niet tevoorschijn komt, maar je een 404 Pagina niet gevonden-melding krijgt. Of wanneer je onderzoek wilt reproduceren, maar de link naar de dataset niet meer werkt.
Een jaartje geleden, tijdens een diner in Glasgow, kreeg ik de vraag of ik een basisgids over PID’s wilde schrijven. Waarom Glasgow? Omdat ik daar met mijn collega's Lotte en Marin was voor de conferentie iPRES. Waarom diner? Omdat er vaak in de context van conferenties ‘zaken worden gedaan'. En omdat ik bij het diner naast een collega van de DPC zat.
In de gids leg ik uit wat PID’s zijn, waarom ze belangrijk zijn, hoe je de meest geschikte kunt kiezen en waar je aan moet denken als je ze in je organisatie implementeert. Belangrijkste boodschap: identifiers zijn niet van nature persistent. Hierover later meer. En uiteraard maak ik wat reclame voor de PID-wijzer die we als NA van het Netwerk Digitaal Erfgoed in beheer hebben genomen.
Ter ere van deze publieke lancering van deze gids had de DPC een webinar georganiseerd. Nadat ik de gids mocht introduceren, spraken enkele andere PID-experts. Of ik mijn verhaal kon vertellen, was even spannend. Want twintig minuten voor de start van het webinar viel in mijn straat de stroom uit. Gelukkig waren mijn laptop en werktelefoon opgeladen en kon ik op mijn hotspot deelnemen.
Martin Eve (CrossRef) had zitten rekenen aan hoe goed gepreserveerd de data achter PID’s is. Van alle leden van CrossRef bleek, dat de helft hun archief in maximal één repository had staan. Dus zonder replicatie. Uiteraard is dat een risico, want als daar wat mee gebeurt, is het archief achter de PID’s weg en kom je alsnog nergens. Martin riep in feite op tot meer aandacht voor digitale preservering. Hoera!
John Kunze (ARK Alliance) pleitte voor het gebruik van ARK’s, en brak een lans voor de term ‘persistable identifier’. Want, zie boven, identifiers zijn niet van nature persistent. Je kunt ze wel persistent maken, persistable dus. Interessant hoe je met net iets andere woorden nog duidelijker op verantwoordelijkheden kunt wijzen.
Christopher Brown (JISC) werkt mee aan een nationale PID-strategie voor het Verenigd Koninkrijk. Hij heeft contact met onze collega’s van SURF, die aan een PID-roadmap voor Nederland werken. Samen met collega Inge Hofsink van de KB werk ik daar aan mee. Bijvoorbeeld om onze wetenschappelijke collega’s er aan te blijven herinneren, dat er ook nog zoiets is als digitaal erfgoed met PID’s.
Betrand Caron (BnF) legde uit waarom en hoe men bij de Franse nationale bibliotheek met ARKs werkt als oplossing voor de interne spaghetti aan veranderende systemen en identifiers. Een boodschap die ik herken van toen we als NA aan ons nieuwe PID-beleid werkten is dat PID’s een mooie gelegenheid zijn om samen met de business owners van je hele applicatielandschap te praten over welke diensten je duurzaam toegankelijk wilt aanbieden.
Jez Cope (BL) liet zien hoe de British Library werkt met DataCite DOI’s. Hij benadrukte terecht dat: “PIDs should tell the whole story, not just provide the data.”
Tijdens de Q&A aan het einde van het webinar kwam de vraag op, hoe we onze gebruikers kunnen helpen om de PID’s te gaan bookmarken in plaats van de mogelijk veranderende URL’s. John legde toen uit, dat er zo’n vijftien jaar geleden met browsermakers is gesproken over de vraag wat zij zouden kunnen doen om PID’s te bookmarken. Het antwoord was kort samengevat: niets, want dat is onveilig en niet transparant. Als je de PID laat zien in plaats van waar de informatie werkelijk staat, zet je de deur open voor phishing. Zit wat in.
En inderdaad is het zo, dat je bij het gebruik van een PID wordt doorgestuurd naar waar de PID naar verwijst. De browser weet dus soms ook simpelweg niet, wat de PID is. Een van de deelnemers kwam met de slimme technische oplossing van het toevoegen van de PID als optioneel veld aan de HTTP-header. Als je wat technisch onderlegd bent verneem ik graag wat je van dit idee vindt.
Ik was al aangenaam verrast, dat ik gevraagd werd een basisgids over PID’s te schrijven. De positieve feedback die ik van mijn meelezers kreeg, sterkte mij in de gedachte dat het in een behoefte voldoet. Dat er vervolgens ook een webinar werd georganiseerd, waarin we met een kleine 40 geïnteresseerden van over de hele wereld over PID’s spraken, was voor mij een kers op de taart.
Mocht je meer willen weten over PID’s, dan vind je de gids via:
PID: http://doi.org/10.7207/twgn23-02 of
Reacties
Remco,
> Een van de deelnemers kwam met de slimme technische oplossing van het toevoegen van de PID als optioneel veld aan de HTTP-header. Als je wat technisch onderlegd bent verneem ik graag wat je van dit idee vindt.
Stel je vraagt de URL https://www.dpconline.org/docs/dpc-technology-watch-publications/technology-watch-guidance-notes/3025-persistent-identifers-for-digital-objects-guidance-note/file op en in de response headers zit de PID-waarde http://doi.org/10.7207/twgn23-02 Een menselijke gebruiker heeft hier nog niets aan, die zal in de browser nog steeds de dpconline.org URL zien, en als de website wordt gebookmarkt/aan de favorieten toegevoegd, zullen browsersmakers liever niet de doi.org gebruiken in het kader van transparantie en veiligheid. Voor machines zal de PID response header wel handig kunnen zijn, maar het is aan de machines om deze waarde ter herkennen en gebruiken.
Voor de menselijke gebruikers moet de erfgoedsector denk ik eenduidiger communiceren over de PIDs. Dus niet 3 verschillende termen gebruiken (pid, permalink, duurzaam webadres). En ook niet deze PID verstoppen achter nog een klik. Ook moet er uitgelegd worden wat de meerwaarde is van een PID. Nu zal het gros van de gebruikers afhaken als ze een handle.net of n2t.net adres zien waarin ze niet het domein website die ze bezoeken herkennnen (en dus alleen een nadeel zien van PIDs). Laat PID- en UX-experts een richtlijn opstellen die de leveranciers van erfgoedinstellingen en-masse opvolgen.