bestandsnaam versus URI

  • mei 2022
  • Marco Streefkerk
  • ·
  • Aangepast 27 jun
  • 1
  • 34
Marco Streefkerk
Preservation Digitaal Erfgoed
  • Mathé van der Velden
  • Remco van Veenendaal

Samenvatting

Wij beheren digitale bestanden in de DAMS waar ze geïdentificeerd zijn d.m.v. een UUID. Wat is dan nog het doel van de bestandsnaam?

Simpele (?) vraag die bij mij opkwam maar waar ik niet zo snel een antwoord op vind. In de huidige werkwijze is het zo dat een digitaal bestand (bv een jpg) bij het ontstaan een naam krijgt. Nu is die bestandsnaam afhankelijk van waar en door wie het bestand wordt gecreëerd. In richtlijnen wordt aangedrongen op standaardisatie (bv https://www.projectcest.be/wiki/Richtlijn:Fotocollectie_digitaliseren#2.4._Bepaal_de_bestandsnaam). Ik vraag me alleen af welk nut het heeft om die standaardisatie toe te passen (vanaf heden of met terugwerkende kracht) als de digitale bestanden allemaal worden beheerd in een DAMS waarin elk object en ieder bestand een UUID krijgt ter identificatie. Enige nut dat ik zie is dat de bestandsnaam wordt opgeslagen als naam (metadata) en als zodanig toch gebruikt wordt als (onbetrouwbare) herkenning.
Ik ben geneigd deze metadata te verwijderen maar het systeem lijkt er intern toch mee te werken.
Maak ik een denkfout?

Reacties

één reactie, 10 augustus 2022
  • Hoi Marco,

    Ik reageer nog graag op je vraag.

    Bij je vraag spelen volgens mij twee zaken: (unieke) identificatie en (betekenisvolle of procesgebonden) informatie. UUID's helpen voor het eerste, niet voor het tweede, want ze drukken geen betekenis uit. Althans, niet over het bestand. De richtlijn sluit betekenisvolle bestandsnamen niet uit. Daarbij zoeken mensen vaak niet op UUID's, maar op betekenisvolle (bestands)namen.

    Systemen maken inderdaad vaak van de bestandsnaam gebruik, omdat dat nu eenmaal het label is dat de maker er aan gaf. Een UUID toevoegen kan het systeem helpen om ervoor te zorgen, dat er voor de computer een gegarandeerd uniek label is om mee te werken en dat er geen documenten overschreven worden. (In bijvoorbeeld Drupal wordt een teller aan de geüploade bestandsnamen toegevoegd, zodat deze ook gegarandeerd uniek zijn, waarna de originele bestandsnaam weer wordt gebruikt bij het downloaden.)

    Zou je de originele bestandsnamen willen vervangen door UUID's, dan schiet je m.i. weinig op. In het terugwerkende kracht-scenario zou je de originele bestandsnaam alsnog moeten metadateren als naam van het originele object, of in de eventmetadata van de wijziging van de bestandsnaam. In het vanaf heden-scenario zul je toch voor menselijke gebruikers betekenisvolle informatie moeten metadateren om documenten terug te kunnen vinden (tenzij je alles OCR't, HTR't en/of full-text doorzoekbaar maakt). En ook voor computationeel gebruik kunnen betekenisvolle bestandsnamen nuttig zijn. Bij onze scans maakt de bestandsnaam duidelijk waar de scan bij hoort: NL-HaNA_2.24.01.05_0_933-7446.tif.

    Er zou een denkfoutje kunnen zitten in het omgaan met het verschil tussen deze twee doeleinden (identificatie en informatie), hoewel ik jullie interne situatie verder niet ken. Feedback is daarom welkom.

    Groet,

    Remco

    PS In je titel staat URI, maar in je vraag UUID. Ik reageer op UUID. Mocht je het toch ook over URI's hebben, weet dan dat URI's in principe niets te maken hoeven hebben met bestandsnamen. Ze zijn maar een label dat de webserver aan informatie geeft. Achter 'voorbeeld.nl/readme.txt' kan ook zomaar een 'virus.exe' zitten. 'Cool URIs don't change (w3.org)' legt daar meer over uit. Maar je kunt natuurlijk prima met een UUID-gebaseerde URI verwijzen naar content uit je DAMS, waarna je een bestand met de originele (betekenisvolle) bestandsnaam downloadt.

    Remco van Veenendaal

Trefwoorden