Werkplan kenisplatform preservation
Het kennisplatform Preservation bestaat nu een jaar of twee. Begin 2016 zijn we gestart met een kick-o...
Dit eerste artikel is onderdeel van een serie over het monitoren van bestaande en innovatieve opslagtechnieken voor informatie. Dit project maakt deel uit van het programma Preservation Watch. De resultaten worden gepubliceerd als blogposts op het KIA platform preservation en via de KIA Kennisindex Preservation Watch
Medio 2022 heeft de werkgroep Preservation Watch een opdracht uitgeschreven over het evalueren van bestaande en innovatieve opslagtechnieken. In deze opdracht worden nieuwe technieken voor erfgoedinstellingen geëvalueerd aan de hand van de Digital Preservation Storage Criteria. We leggen een viertal bestaande en opkomende opslagtechnieken -tape, object storage, glas en DNA- naast deze criteria, om zo de opslagtechnieken met elkaar te vergelijken. Verder worden de evaluatiecriteria zelf tegen het licht gehouden om te zien of deze voldoen en of er misschien nog criteria ontbreken. Het maken van een overzicht van toonaangevende bronnen en websites op het gebied van opslagtechnieken maakt deel uit van de opdracht.
We slaan steeds meer gegevens op
Digitale gegevensopslag (oftewel: data storage) is het geheel van methoden en technologieën voor het vastleggen en bewaren van digitale informatie op elektromagnetische, optische of op silicium gebaseerde opslagmedia. Digitale storage media vind je overal: in kantoren, datacenters en thuis. Het zit ook in mobiele apparaten zoals smartphones en tablets. Consumenten en bedrijven gebruiken opslagmedia om allerhande informatie te bewaren, variërend van persoonlijke tot bedrijfskritische gegevens.
Met de komst van enorme hoeveelheden data, de behoefte om deze te analyseren en de overvloed aan internet of things (IoT)-apparaten is opslag belangrijker dan ooit om de groeiende hoeveelheden gegevens op te slaan. Moderne opslagsystemen moeten ook het gebruik van kunstmatige intelligentie (AI), machine learning en andere AI-technologieën ondersteunen om met deze gegevens om te kunnen gaan. De groei van het gegevensverkeer en de gegevensopslag maken dat we schaalbare opslagsystemen nodig hebben. Die zijn er al in de vorm van storage area networks (SAN's), network-attached storage (NAS) en object storage platforms. Tegen 2025 zullen naar verwachting 163 zettabytes (ZB) aan nieuwe gegevens worden gegenereerd.
Zijn de bestaande en nieuwe technieken in staat om informatie op een innovatieve, betere, snellere, eenvoudigere en goedkopere manier op te slaan? Kunnen nieuwe technieken geld, tijd en energie besparen en de belasting van het milieu door CO2-uitstoot verminderen? Nieuwe opslagmedia zoals glas en DNA claimen dat informatie compact opgeslagen kan worden, maar gaat dit onder aanvaardbare condities? Ook bestaande technieken vernieuwen zich: denk aan de opkomst van object storage op schijven, aan de herwaardering van magnetische tape en zelfs microfilm. Dit is interessant voor erfgoedinstellingen aangezien juist zij veel data opslaan die zeer langdurig bewaard moet worden: vaak meerdere keren om dataverlies te voorkomen. Daarom is het belangrijk om deze technieken te leren kennen en hun gebruiksmogelijkheden te onderzoeken.
Een voorbeeld. Heb je ooit een boek gelezen van 100 jaar geleden? Waarschijnlijk lukte dat. En het e-book dat je tien jaar geleden kocht? Dat zou wel eens een heel andere ervaring kunnen zijn. Het blijkt onder meer uit de ervaringen die worden gedeeld aansluitend op het laatste blog van Brewster Kahle, de grondlegger van The Internet Archive. Hierin legt hij uit dat digitale boeken veel sneller slijten dan papieren exemplaren en hoe dat komt. Deze slijtage willen we voorkomen: digitale informatie moet duurzaam toegankelijk zijn: vindbaar, beschikbaar, leesbaar, interpreteerbaar en betrouwbaar voor wie daar recht op heeft. Niet alleen toegankelijk zijn, maar ook blijven, vaak tot in de eeuwigheid.
Het digitale boek bijvoorbeeld kent veel bedreigingen. Om er enkele te noemen: het businessmodel van de uitgevers, de snelle evolutie van de e-readers en de veroudering van bestandsformaten (ook hierover is een blogserie) waarin boeken worden gepubliceerd. Kahle legt uit hoe digitale boeken voortdurend onderhoud vragen. Het Internet Archive verwerkt en herbewerkt de boeken die het heeft gedigitaliseerd naarmate er nieuwe technologieën voor optische tekenherkenning komen, dat nieuwe technologieën voor tekstbegrip nieuwe analyses mogelijk maken, de formaten veranderen van djvu naar daisy naar pdf-a naar epub1 naar epub2 naar epub3 en ga zo maar door.
“Langetermijnbewaring kost enorme inspanningen om de ontwikkelingen bij te houden. De digitale media waarop de informatieobjecten zich bevinden veranderen - van digitale lineaire tape naar PATA naar SATA harde schijven naar SSD's. Als we onze digitale boeken niet actief onderhouden, worden ze snel onleesbaar” zegt Brewster. “Dan zijn er nog de catalogisering en de metadata. Als we niet meegaan met de steeds veranderende verwachtingen dan worden onze boeken niet gevonden. Dit is een blijvende, dure inspanning: al vroeg werd gewaarschuwd voor digitale dementie, voor een digitaal zwart gat: voor ‘dark ages’ .
In augustus 2022 verscheen “The escalating challenge of preserving enterprise data” van Further Market Research. Dit rapport geeft een belangrijk signaal af, maar is daarin overigens niet de enige. Wanneer we ervan uitgaan dat de behoefte aan opslagmedia blijft groeien met 25% per jaar -het wordt momenteel geschat op tussen de 30 en 35%- dan bereiken we tussen 2022 en 2030 het maximum van de productiecapaciteit hiervan. Uit het rapport, wel gesponsord door bedrijven die leven van opslagmedia- blijkt dat een grotere behoefte zal ontstaan aan opslagtechnieken voor massale bestanden. Hier worden tape, glas en DNA als oplossingen genoemd.
Hoe meer data, des te kosteneffectiever we moeten opslaan, met een minimale energieconsumptie en daardoor veroorzaakte CO2 uitstoot. Om het rapport te citeren: “de datameren uit 2010 zijn nu data oceanen geworden en binnenkort worden dat pluriforme data universa, waarin alles met alles is verbonden. We beginnen nog maar net hiervan de implicaties te zien”.
Voor de opslag van digitale media zijn criteria ontwikkeld, de digitale bewaarcriteria of preservation storage criteria. We zullen deze criteria gebruiken om de nieuwe opslagtechnieken tegen het licht te houden. We bespreken de nieuwe trends op het gebied van opslagtechnieken. Vergeef ons daarbij de Engelse termen: door deze te gebruiken sluiten we aan op een begrippenkader dat universeel is. Waar nodig zullen we ze verklaren.
De volledige serie van Ad van Heijst:
blog 1: Inleiding
blog 2: Criteria voor opslag
blog 3: Magnetische opslag
blog 4: Opslag van informatie op glas
blog 5: Informatieopslag in de vorm van DNA
blog 6: Technology: that's what it's all about
Reacties
De KB viert deze week 20 jaar digitaal boekendepot. Zie 20 jaar e-Depot | KB, de nationale bibliotheek
Interessant, wanneer is onderzoek bezig, hoe deel te nemen en wanneer gereed?
Zeker interessant!
Ik ben zelf enige tijd geleden hiervoor geïnterviewd: S+T+ARTS Residency: Urban Data Forest - In4Art, ken je die al?
Dat betreft dan ook het opslaan van data in DNA en het vervolgens opslaan / injecteren (?) van dat DNA in lokale bossen. Conceptueel erg interessant - je krijgt hele interessante afgeleide discussies over eigenaarschap en authenticiteit - maar nog niet erg toepasbaar voor onze doeleinden.
@andreplatvngrealisat
Hoi André, het onderzoek is twee weken geleden begonnen en loopt tot eind januari, bestaat uit zes wekelijkse blogs (minstens), maar volgende week ligt het hele land stil, dus wij ook.
@wouterbrunner
Het injecteren in lokale bossen kende ik nog niet Wouter. Wel een oplossing die ik jaren geleden hoorde op een ARMA-congres in Chicago, om de hele geschiedenis van de staat New York te injecteren in het DNA van een vrouwelijke kakkerlak. Het idee was dat over honderd jaar de kakkerlak zich zou hebben vermenigvuldigd en dat alle kakkerlakken in New York het DNA van die kakkerlak zouden dragen, dus ook van de geschiedenis van de staat New York. Die je dan weer met een DNA-lezer zou kunnen uitlezen... Er zijn momenteel al betere toepassingen, waarvan opslag van gegevens in DNA-structuren er een is. Komen we in een specifieke blog op terug.