Dubbele opslag, oplopende kosten? *OAIS afkortingen alert*

  • mrt 2018
  • Verwijderde gebruiker
  • ·
  • Aangepast 27 jun
  • 2
  • 39
Verwijderde gebruiker
E-depot
  • Ronald Rommelse


Beste collega’s,

Wij lopen er in ons e-depotproject (e-depot’18) tegenaan, dat de opslagkosten in het e-depot veel sneller kunnen gaan oplopen dan verwacht, omdat 1 bestand op verschillende manieren wordt opgeslagen. 1 of 2 keer in de AIP, en daarbij ook nog één (of meer) keer in de DIP. Dus een SIP van 1 Terabyte kan in theorie wel 2 tot 3 keer zoveel opslagruimte in het e-depot opnemen. Dit gaat in tegen het principe “eenmalige opslag, meervoudig gebruik”, en laat dit nou net een krachtig argument zijn dat we al jaren gebruiken om draagvlak voor het e-depot te krijgen…

Zie voor iets meer achtergrond de toelichting hieronder. Mijn vragen aan jullie zijn:

  • Hoe is dit bij andere e-depots (in ontwikkeling) geregeld? Wordt elk informatieobject dubbel opgeslagen? (Als AIP en als DIP)

  • Als een object niet standaard als DIP wordt opgeslagen, (hoe) is het dan publiek toegankelijk?

  • Ik vind het eigenlijk niet te verantwoorden om 100% van de objecten dubbel op te slaan (waarvan de DIPS ook in een duurdere omgeving), terwijl waarschijnlijk maar enkele procenten van overgedragen archief worden geraadpleegd en dan vaak ook nog eenmalig. Hoe denken jullie hierover?

  • Wij denken zelf aan een oplossing a la “dip on demand”, dus niet standaard elk object in het e-depot ook in een raadpleegomgeving opslaan, maar alleen op aanvraag. Object moet uiteraard wel vindbaar zijn in raadpleegomgeving. Weten jullie of er op andere plaatsen over maatregelen voor het beperken van opslagcapaciteit wordt nagedacht?

Jullie reacties worden zeer gewaardeerd! Als je de discussie liever niet online voert: je kunt me ook mailen op a.vdlek@archiefalkmaar.nl.


Nadere Toelichting:

Bij ingest wordt een AIP gemaakt die in de Archival Storage wordt opgeslagen. De AIP bevat een containerbestand (BagIt) met alle digitale objecten en metadata die in één ingest worden opgenomen. Dat kan dus 1 record zijn maar ook een heel archief. De Archival Storage is uit veiligheidsoverwegingen niet door anderen dan de beheerder te benaderen.
Ten behoeve van de raadpleging worden bij de ingest automatisch DIP’s gemaakt; Informatieobject + metadata. De DIP’S zijn op het niveau van inventarisnummer. De DIP’s worden opgeslagen op een via het web toegankelijke omgeving (net als scans archiefbank, beeldbank, etc). Deze opslagomgeving is per TB duurder dan de archival storage.
In het ingest proces worden de ge-ingeste bestanden dus meerdere keren opgeslagen:

  • Het originele bestand (in de AIP);

  • Indien nodig: een kopie in een duurzaam bestandsformaat (in de AIP)

  • Als publiek toegankelijk raadpleegbestand, (in de DIP, publiek toegankelijk via de website en API’s)

  • Eventueel ook nog in andere vorm in de DIP, bijvoorbeeld thumbnails, verschillende bestandformaten (geschikt voor hergebruik of juist onwijzigbaar ter bescherming van authenticiteit)

Als van een record geen DIP is gemaakt, is het niet beschikbaar in de raadpleegomgeving (in ons geval onze website, maar ook niet beschikbaar voor API’s , OAI-PMH, etc)

Reacties

2 reacties, meest recent: 26 maart 2018
  • Afhankelijk van het beleid zal je in veel gevallen te maken hebben met 3-voudige opslag. Zoals je aangeeft bewaar je zowel het origineel als het gepreserveerde formaat in de AIP. Deze is weliswaar (in Archivematica) gecomprimeerd in een container (opslagvermindering van circa 25%) maar hiernaast moet ook nog een toegang geregeld worden. Meervoudige opslag is daarom voor digitale objecten in een duurzame bewaaromgeving denk ik onvermijdelijk.

    Een ‘on demand’ optie zou zeker kunnen bijdragen aan opslagvermindering. Ook moet je rekening houden met hoe je een document toegankelijk maakt, vanuit het origineel of vanuit het gepreserveerde formaat? Biedt je het gepreserveerde formaat aan in een viewer en/of het origineel als download, of alles vanuit origineel, maar kan dat wel? Ook met het tonen kun je een keuze maken tussen een viewer welke de pdf ophaald en dan toont of in gedeeltes als JPEG 2000 toont.

    Als voorbeeld:
    Aanlevering van een Word document (origineel: opslag 1), kan worden gepreserveerd als PDF/A (opslag 2). Om deze toegankelijk te maken kun je ervoor kiezen de PDF aan te bieden gezien deze makkelijk in een viewer te tonen is. Echter de PDF is niet hetzelfde als het origineel, er is informatieverlies opgetreden zoals bijvoorbeeld verloren objecten in het document. Kortom biedt je dan het gepreserveerde formaat of het originele authentieke formaat als download aan?

    Dit zijn allemaal vragen welke we de komende periode gaan testen en proberen te beantwoorden in een preserveringbeleidsplan. We gaan allemaal met hetzelfde te maken krijgen dus laten we hier vooral ook de samenwerking in zoeken.

    Verwijderde gebruiker
  • In theorie klinkt een dip-on-demand oplossing als een goede oplossing. Echter je maakt zo ook een technische verbinding tussen het e-depot en de buitenwereld. Daar weten hackers wel raad mee. Bij ons bleek dat een directe verbinding naar het e-depot conflicteerde met de firewalls die de gemeente Rotterdam heeft ter bescherming. Wij hebben op dit moment dan ook gekozen voor twee formaten. Duurzaam AIP formaat binnen e-depot en dip formaat voor raadpleging buiten e-depot gekoppeld aan het collectiebeheersysteem.

    Ronald Rommelse

Trefwoorden