Ingest (en afhankelijkheden) van hybride digitale collecties

  • mei 2017
  • Verwijderde gebruiker
  • ·
  • Aangepast 27 jun
  • 2
  • 79
Verwijderde gebruiker
Particuliere Websites en SoMe
  • Jeroen van Luin

Dag allen,

Voor het project De Digitale Stad Herleeft [1] zijn we druk bezig met het zoeken naar oplossingen. We hebben het benodigde materiaal “opgegraven”. Onze volgende vraag is nu hoe we dat materiaal ook duurzaam bij mekaar houden.

DDS was een niet alleen een website, maar een complex informatiesysteem met verschillende applicaties en versies. De virtuele community er omheen was van 1994 tot en met 2001 online. We hebben inmiddels meer dan 8 miljoen bestanden teruggevonden op oude harde schijven. Een aantal onderdelen daarvan hebben we ook weer werkend gekregen. Onze vraag is nu hoe we dit materiaal duurzaam (en deels ook het liefst werkend) kunnen archiveren.

Om grip te krijgen op het proces waarbij een archief zich ontfermt over een heterogene collectie materiaal (de oorspronkelijke serverbestanden, maar ook contextmateriaal en beschrijvingen) zijn we op zoek naar voorbeelden hoe andere organisaties omgaan met het verwerken van uitgebreide digitale collecties met dynamische (werkende) data.

We hebben vragen als:

  • in welke mate is bij digitale collecties de provenance en oorspronkelijke volgorde van belang?

  • ken je voorbeelden van organisaties die gevarieerde digitale collecties hebben ge-ingest en een beschrijving hebben gemaakt van concrete cases?

  • welke parameters noteren deze organisaties? waaruit bestaat voor hen de kleinste logische eenheid om te beschrijven?

  • hoe brengen deze organisaties de afhankelijkheden voor deze verschillende materialen in kaart?

Het zou ons ontzettend helpen als ik jullie mocht vragen om concrete voorbeelden (en, eventueel, referenties) die ons bij dit proces verder kunnen helpen. Alvast enorm bedankt voor jullie hulp.

[1] http://waag.org/nl/project/de-digitale-stad-herleeft

Met hartelijke groeten,

Erwin Verbruggen
Nederlands Instituut voor Beeld en Geluid
everbruggen@beeldengeluid.nl



Reacties

2 reacties, meest recent: 24 mei 2017
  • Beste Erwin,

    Wat een ontzettend leuke, maar ingewikkelde vraag. Binnen mijn rol als digitale archivaris ligt mijn kennis vooral op het ‘digitale’ deel, en minder op het ‘archivaris’ deel. Waar nodig hoop ik dat een echte archivaris mij aanvult over verbetert. Maar dat weerhoudt mij er natuurlijk niet van mijn mening geven over de vier vragen, al zal het dus niet een compleet antwoord zijn.

    • in welke mate is bij digitale collecties de provenance en oorspronkelijke volgorde van belang?

    Binnen de archiefwereld zijn herkomst en oude orde essentieel. De waarde van een archiefstuk als bewijsstuk, verantwoordingsstuk of cultureel erfgoed is onlosmakelijk verbonden met de authenticiteit van het stuk, en de authenticiteit is weer onlosmakelijk verbonden met zijn herkomst en de chain of custody (een term waar ik nog steeds geen goede Nederlandse vertaling voor ken). Authenticiteit zegt overigens niets over de waarheid in een document: een vervalste handtekening is ontzettend authentiek, zolang er maar bij staat dat het een vervalste handtekening is.

    De oorspronkelijke volgorde (bij ons ook wel ‘oude orde’ genoemd) betekent veel voor hoe een archief tot stand is gekomen en hoe het tijdens de vorming is gebruikt. Wanneer je jaren later, in een hele andere tijd met een heel ander begrippenkader die stukken zou gaan herordenen dan gaat heel veel van de betekenis in die oorspronkelijke volgorde verloren, en zul je later, zelfs als je de archiefvormer goed hebt leren kennen, veel context en impliciete informatie missen. Iets waar archivarissen in de laatste paar honderd jaar overigens door schade en schande achter zijn gekomen.

    Voor deze archieftheorie maakt het niet uit of het gaat om papieren of digitale data. Of misschien wel: bij papieren archief staat veel metadata onlosmakelijk op hetzelfde medium als de rest van de tekst, namelijk op het papier zelf, terwijl bij digitale data de metadata vaak los staat, in aparte databases of in losse files. Je zou kunnen beargumenteren dat het daarom bij digitale archieven nog belangrijker is om de herkomst en oude orde te bewaren, als ondersteuning van de rest van de metadata.

    Wat in de digitale wereld overigens wel veel makkelijker kan dan in bij papieren archieven en inventarissen: naast de oorspronkelijke orde een alternatieve ingang maken, bijvoorbeeld op onderwerp, datum, kleurgebruik, wel-of-niet-knipperend, versienummer, verzin het maar.

    Dat over ‘versienummer’ is wel een belangrijk ding overigens: je noemt dat er verschillende applicaties en verschillende versies in de loop der tijd hebben bestaan. Eén van de veel genoemde tekortkomingen van de gratis versie van de Wayback Machine is dat hij hap-snap stukjes van een website archiveert, en dat in de presentatie koppelt aan andere versies van andere pagina’s om zo een reconstructie te tonen in een vorm die nooit daadwerkelijk bestaan heeft. En dan klopt de authenticiteit niet meer: het getoonde ‘geheel’ is niet dat wat het zegt te zijn.

    • ken je voorbeelden van organisaties die gevarieerde digitale collecties hebben ge-ingest en een beschrijving hebben gemaakt van concrete cases?

    Hier wil ik toch nog even een onderscheid maken tussen archief en collectie. Bij een collectie bewaar en beschrijf je eenheden (losse bestanden of groepen van bestanden die met elkaar een eenheid vormen) die op zichzelf staan. Bij een archiefstuk is de context en de relatie tussen een stuk en stukken eromheen haast belangrijker dan de inhoud van het stuk zelf. Een briefje met de tekst “Dank voor het melden” heeft een hele andere lading binnen het dossier “Stukken betreffende het zetten van koffie” dan in het dossier “Stukken betreffende illegale wapenleveringen aan Iran”. 

    De reden dat ik dat onderscheid wil maken, is omdat ik wel voorbeelden ken van instellingen die grote gevarieerde born-digital collecties hebben opgenomen. De Internet Archive heeft bijvoorbeeld enorme collecties websites, e-books, games en 78-toerenplaten. Grote instellingen die gevarieerde born-digital archieven hebben opgenomen ken ik nog niet. Ook wijzelf (Nationaal Archief) zijn nog in het stadium waarbij we in een online inventaris op de standaard manier onze rubrieken, series en dossiers tonen, en dan op de juiste plek linkjes tonen naar bestanden in het e-Depot. Het werkt, en mensen kunnen vanuit huis bij de digitale documenten in het archief. Toch zal er iets anders verzonnen moeten worden voor wanneer dossiers uit honderden of duizenden documenten gaan bestaan, of wanneer informatie helemaal niet meer in een documentvorm zit, maar in databases, gelinkt aan basisregistraties, getoond op specifieke websites met speciale vormgeving. Een uitdaging die gelukkig wereldwijd hetzelfde is: de inhoud verschilt per land, maar de onderliggende techniek en dus uitdaging voor archiveren is globaal.

    • welke parameters noteren deze organisaties? waaruit bestaat voor hen de kleinste logische eenheid om te beschrijven?

    Een vraag met twee delen die ik niet goed bij elkaar kan plaatsen, dus ik probeer ze los te beantwoorden. Wat betreft de parameters: als ICT’er ken ik die term vooral in de zin van “configureerbare instellingen van een softwarepakket”. Als dat de manier is die je bedoelt, dan zou het antwoord zijn: alles wat je nodig hebt om later, als hergebruiker van het archiefmateriaal, het archiefstuk authentiek te kunnen weergeven. Wat dat is, zal per digitaal archiefstuk verschillen, en misschien ook per gekozen preservation-techniek en/of gekozen render-techniek.

    Wat betreft de laagste eenheid die beschreven wordt: ook daar is niet één antwoord dat in alle situaties goed is. Traditioneel beschrijven archieven hun papieren archieven per omslag of per doos, het “inventarisnummer” of “dossier”. Oorspronkelijk omdat Muller, Feith en Fruin (de aartsvaders van de archivistiek) vonden dat de onderzoeker niet teveel verwend moest worden, en een inventaris alleen een wegwijzer in een archiefblok moest zijn, later ook omdat het veel te veel werk is om alles per individueel stuk te gaan beschrijven. Digitaal ligt dat anders, daar zijn vaak ook op onderliggende niveaus beschrijvende metadata aanwezig, en/of hebben bestanden zelf betekenisvolle namen. Net als bij papieren archieven is het doel om de archiefgebruiker in staat te stellen om in redelijke tijd en met redelijke inspanning zijn doel te bereiken. Bij het Deltaprogramma-archief van de Staf Deltacommissaris dat vorige maand is overgedragen aan het Nationaal Archief waren niet alle bestandsnamen even goed beschrijvend. De (sub)dossiernamen waren echter zo goed, dat je als archiefgebruiker probleemloos kunt zien welk document je moet hebben. En daarmee was het archief dus prima ontsloten. Bij een collectie, waarbij de afzonderlijke onderdelen niet in een verband tot elkaar staan, zou dit niet of veel minder goed hebben gewerkt.

    • hoe brengen deze organisaties de afhankelijkheden voor deze verschillende materialen in kaart?

    Archiefinstellingen gebruiken daar tot dusver vooral hun metadata voor. Via hiërarchieën en groeperingen wordt de logische ordening aan archiefbestanden gegeven. En zoals hierboven al gemeld: in de digitale wereld kun je zelfs meerdere logische ordeningen op één en hetzelfde archief loslaten. En daar waar relaties niet via een hiërarchie te leggen is, kun je via relatie-elementen in de metadata links leggen. Maar… dat is allemaal metadata. Of dat voor de eindgebruiker ook makkelijk werkt hangt af van hoe de presentatie van het archiefmateriaal omgaat met de gelegde relaties. Of een archivistisch-verantwoord gelegde relatie voldoende is om het “werkend” te kunnen aanbieden is de vraag.

    Dus…

    Lang verhaal, en weinig concrete antwoorden op je vraag, ben ik bang. Belangrijk is dus in ieder geval wel dat je voor het archiveren de context van de verschillende onderdelen goed bewaakt. Versies, herkomst, etc.  Voor een gebruiker (dat kan variëren van rondklikker in een geëmuleerde versie tot een programmeur-onderzoeker die onder water wil kijken) moet het duidelijk zijn wat hij ziet, en dat wat hij ziet ook echt op die manier bestaan heeft. Dus niet verschillende versies door elkaar presenteren als ware het één versie die ooit gedraaid heeft. Tenzij er natuurlijk op een gegeven moment verschillende versies van het platform door elkaar draaiden, maar dan moet dat heel nauwkeurig beschreven worden.

    Zoals mijn archiefmentor Henny van Schie mij steeds voorhoudt: je mag heel veel doen bij het ontsluiten van archieven. Op twee voorwaarden: je moet precies beschrijven wat je gedaan hebt, en het moet mogelijk zijn om terug te gaan naar de versie voordat je ermee ging knoeien. Zolang je je daar aan houdt kun je weinig onherstelbaars fout doen. Deze filosofie heb ik toegepast bij het archiveren van de jaarverslagen van de RDW over 2000 t/m 2003. Die waren in website-vorm gemaakt en zijn vorig jaar overgedragen. De 2000-versie was ontworpen voor een scherm van 800px breed, wat duidelijk te zien was doordat een paarse balk aan de linkerkant van het scherm na 800px rechts herhaald werd dwars door de tekst heen. Zonder aanpassing was het jaarverslag deels onleesbaar, maar met aanpassing is de authenticiteit aangetast. Dus zitten er in het e-Depot nu twee versies: een versie met aanpassing zodat de tekst leesbaar is, en waarbij in de metadata duidelijk staat dat ik de aanpassing heb gedaan, en de originele bestanden zonder aanpassing, zodat precies te zien is wat er ooit daadwerkelijk online gestaan heeft. Een presentatie-versie en een preservering-versie dus.

     

    Jeroen van Luin