Studenten aan de slag bij het Netwerk Digitaal Erfgoed
Sinds februari werkt een groep van zes studenten van de Reinwardt Academie en de UvA aan projecten bi...
Dit is het zesde en daarmee laatste artikel in de reeks over opslagtechnieken. Hierin maken we de cirkel rond door terug te gaan naar de Preservation Storage Criteria, waar we in eerste instantie mee begonnen. Zie voor eerdere artikelen onderaan deze blog.
“This is the greatest time to be in archives” zei David Ferriero, Archivaris van de Verenigde Staten tijdens de vorige Ketelaarlezing. We kunnen niet anders dan het met hem eens zijn! In de lezing werd de vraag beantwoord wat nodig is voor een goed functionerend modern archief. Ferriero’s antwoord was duidelijk: “Technology, that’s what it’s all about. Studenten zoeken vrijwel alleen nog online naar informatie, dus moeten we informatie digitaal maken en publiceren.”
Die technologie is tegelijkertijd de grootste uitdaging, met name de financiering daarvan: het is een vaste kostenpost en bij elke beslissing zitten we minstens de afschrijvingstermijn vast aan de gekozen techniek. Hoe we deze techniek bekostigd krijgen zal veel inventiviteit vragen: we zullen het belang van de bewaring van informatieobjecten moeten blijven benadrukken (en daarbij dat bewaring meer behelst dan louter opslag) bij politiek, bedrijfsleven en burgers. “Talk to the frontlines” noemde Ferreiro dit.
De afgelopen artikelenreeks hebben we de nieuwe opslagtechnieken verkend die op komst zijn: we zijn ingegaan op magnetische object storage, opslag op glasplaten en DNA, wat ook wel het opslagmedium van de natuur wordt genoemd. Gedwongen door drivers als de dataexplosie, kostenefficiëncy en een toenemend green IT-bewustzijn moeten nieuwe opslag- en retrievaltechnieken worden ontwikkeld om data op te slaan en terug te vinden. Daarin nemen grote bedrijven, waaronder Microsoft, samen met universiteiten het initiatief.
De opslagtechnieken staan natuurlijk niet op zichzelf, maar maken onderdeel uit van een veel uitgebreider beheerkader. Daarin spelen preservering -het voorkomen van verval, ervoor zorgen dat digitale informatie in de gewenste conditie blijft- en conservering -ervoor zorgen dat verminkte informatie in oorspronkelijke staat wordt teruggebracht- belangrijke rollen. De grens tussen pre- en conservering is niet zo scherp gedefinieerd als ik nu doe overigens, maar dit terzijde. We zoeken naar manieren waar het beheer de minste zorg vraagt tegen de laagst mogelijke Total Cost of Ownership (TCO, ook wel Total Lifecycle Cost genoemd), de laatste jaren ook tegen een zo beperkt mogelijke ecologische voetafdruk. Wat deze kosten verhoogt is dat de hoeveelheid cold data sneller toeneemt dan de gegevens op de andere niveaus. De kosten van de opslag van hot data zijn hoog, de kosten van cold data zijn relatief laag, alleen: de hoeveelheid is zo groot! Digitalisering werd al in 1997 een wolf in schaapskleren genoemd. Als voorbeeld: in 2025 zullen minstens 400 miljoen aangesloten auto’s op de weg zijn, die met hun navigatiesystemen 10 exabytes aan dataverkeer genereren. Al deze gegevens worden bewaard gedurende langere tijd voor testen en op simulatie gebaseerde studies, voor training en validatie voor machinaal leren en systeemveiligheidstoepassingen. Hoe gaan we dat doen (om eens niet te denken aan de digitale informatievloed die overheidsorganisaties creëren, de digitale opslag van boeken, kunstwerken: de toevloed is overweldigend)?
Opslagtechnieken is één, maar je moet informatie ook snel terugzoeken. Omdat dit gebeurt in information retrieval systemen die zelf ook weer geheugencapaciteit en rekensnelheid vragen wordt gezocht naar besparende algoritmen om informatie trefzeker en sneller terug te vinden. Ook daarin zullen keuzes moeten worden gemaakt: moeten alle informatieobjecten full-text doorzoekbaar zijn? Kunnen we voor bepaalde aggregatieniveaus volstaan met minder metadata?
De computerhistorie kent tientallen opslagmedia die niet meer kunnen worden gelezen omdat de fysieke mediaformaten en/of hun lezers om technologische of commerciële redenen verouderd zijn. Denk maar eens aan de ponskaarten waarop NASA in het verleden data opsloeg van de Apollovluchten: IBM heeft ooit een ponskaartlezer gebouwd om deze informatie opnieuw leesbaar en herbruikbaar te maken. Het antwoord tot nu toe hierop is: migratie, conversie en emulatie: de eerste is de overzetting van gegevens in een ander bestandsformaat, bij conversie worden gegevens en de toepassingsprogrammatuur naar een ander platform overgezet en bij emulatie wordt de verouderde software nagebouwd in een nieuwe softwareomgeving. Hoe meer gegevens we beheren, des te moeilijker en omslachtiger wordt het proces om de gegevens keer op keer over te zetten naar een nieuwe omgeving, naar nieuwe formaten en bij elke overzetting lopen we kans gegevens of functionaliteit van programmatuur te verliezen. Denk aan wat Brewster Kahle, grondlegger van The Internet Archive, hierover zegt in Digital Books wear out faster than Physical Books: hoe binnen korte tijd digitale boekformaten veranderden van djvu naar daisy naar pdf-a naar EPUB1, 2 en 3….
Het draait bij digitale informatieopslag niet alleen om de opslagmedia. Wat je duurzaam opslaat moet je ook kunnen terugvinden en eenmaal gevonden moet het beschikbaar zijn, leesbaar, interpreteerbaar en betrouwbaar. Dit vraagt om een breder perspectief, waarover binnen KIA in meerdere werkgroepen wordt nagedacht. Zie bijvoorbeeld de blogs van Rein van ’t Veer over verouderde bestandsformaten.
Preservation storage ondersteunt digitale opslag - "de reeks beheerde activiteiten die nodig zijn om de continue toegang tot digitale objecten te verzekeren voor zolang als nodig". Preservation storage wordt geplaatst binnen de context van het ISO OAIS Reference Model. Als aanvulling hierop heeft een werkgroep ter gelegenheid van een workshop op iPRES 2016 de criteria voor preservering nader uitgewerkt in de Digital Preservation Storage Criteria (hierna: DPSC)[1]. Het tweede artikel in deze reeks ging over deze DPSC die we ook vertaalden. De veronderstelling was dat nieuwe opslagtechnieken langs de lat van de DPSC konden worden gelegd om te bezien in hoeverre zij hiermee overeenstemden, of nieuwe criteria aan de lijst konden worden toegevoegd en of bestaande criteria moesten worden gewijzigd. In deze context omvat preservation storage dezelfde functies als de onderdelen van andere OAIS-functionaliteiten die nodig zijn om archival information packages (AIP's) op te slaan, in opslag te houden en weer op te halen (Zierau & McGovern, 2014). Dit betekent dat de DPSC ruimer zijn dan alleen de opslag van informatie. Eigenlijk zou je de opslag als een los element kunnen zien binnen de criteria, uitwisselbaar qua medium: in plaats van papieren opslag kunnen we immers microfilm gebruiken, of magnetische tape, of glasplaten, of DNA. Het OAIS zowel als de DPSC gaan er terecht van uit dat we gebruik zullen maken van een mediamix: wat snel beschikbaar moet zijn hoort op een ander medium dan wat we slechts sporadisch gebruiken. Dit vraagt een continue afstemming, omdat de verschillende opslagvormen sterk in kosten verschillen en er na verloop van tijd verplaatsingen zullen zijn van informatie van het ene opslagmedium naar het andere.
Naast de context die door het OAIS-referentiemodel wordt geboden, kan preservation storage worden beschouwd in termen van de zich ontwikkelende technologische omgeving en ondersteunende organisatie en het voortschrijdend inzicht over digitale bewaring.
Die opslagmedia kunnen dus alle huidige en toekomstige opslagmedia zijn om gegevens in op te slaan. Dit betekent dat de DPSC ook toepasbaar moeten zijn op de nieuwe media glas en DNA. Toch zullen bepaalde criteria bij met name DNA niet van toepassing zijn. We citeren hiervoor uit An Introduction to DNA Storage het volgende: gegevens die opgeslagen zijn in DNA kunnen duizenden jaren intact blijven bij kamertemperatuur in een droge atmosfeer. Fixiteitscontroles zijn niet nodig. Het formaat is onveranderlijk door zijn universele moleculaire structuur: digitale gegevens die vandaag in DNA zijn gearchiveerd, zullen over duizenden jaren nog steeds chemisch leesbaar zijn. Het onveranderlijke formaat van DNA garandeert dat, wanneer daarin digitale gegevens zijn opgeslagen, deze altijd kunnen worden gelezen en kunnen worden gedecodeerd zolang de codering waarmee het is geschreven (het leesapparaat) beschikbaar is. Gegevensmigratie is minimaal of onnodig. Hoorden we dat ook niet ooit over TIFF?
We hebben de nieuwe technieken (magnetische object storage, glas en DNA) langs de bestaande DPSC gelegd. Dan zie je dat de Criteria, voor wat betreft opslagtechniek, op zich redelijk matchen met de criteria. Enkele opmerkelijke verschillen duiden we hieronder aan.
Regel 1: de integriteitscontrole. Hieronder wordt het volgende verstaan: voert verifieerbare controles uit om veranderingen of verlies in of tussen kopieën op te sporen (bv herberekening van de checksum, fixity checks (controle op veranderbaarheid), identificatie van ontbrekende bestanden).
Voor magnetische informatieopslag zullen continu periodieke fixiteitscontroles worden uitgevoerd om verval te signaleren, te repareren en ervoor te zorgen dat de verschillende opgeslagen informatieobjecten geen onderlinge verschillen vertonen. In de eerder geciteerde introductie van DNA-opslag (hoofdstuk 3.2.2) kunnen we echter lezen dat door de duurzame aard van DNA wordt verwacht dat het onderhoud ervan -als de data in rust zijn- veel eenvoudiger zal zijn dan bij magnetische media en als zodanig geen significante kosten met zich mee zal brengen voor het bewaren van de gegevens na creatie. Datzelfde geldt voor de opslag van informatie op glasplaten: eens gebrand, blijft gebrand en kent geen vervaltermijn. Wel zullen maatregelen moeten worden getroffen om te vermijden dat glasplaten beschadigen en dat de omgeving waarin deze worden bewaard beveiligd is: dit betekent opslag op meerdere plaatsen verspreid over de wereld, afhankelijk van de waarde die aan de informatie wordt toegekend. Maar dit geldt voor alle opslagmedia.
Regel 3: kostenefficiency. Kost in totaal relatief minder dan andere vergelijkbare oplossingen doordat bij het ontwerp rekening is gehouden met kostenefficiency, bijvoorbeeld door resource pooling en -sharing, multi tenancy (meerdere gebruikers delen dezelfde toepassingen): dit is nu nog niet vast te stellen. Wel beweren leveranciers dat de oplossing van storage op glas -500TB per schijf- aanzienlijk goedkoper zal uitvallen dan de storage in DNA- vele malen hoger dan de huidige duurste magnetische opslagvorm, maar verwacht wordt dat de opslag van 1 TB als DNA in 2030 de prijs van $1 zal benaderen qua opslagkosten en dan nog eens $1 voor de sequencing. Waarbij wel de verwachting is uitgesproken dat dit dé opslag van de toekomst zal worden, en door marktwerking en schaalvergroting de kosten drastisch zullen worden verlaagd. We zien dat een marktpatij als Microsoft op twee paarden wedt: glas zowel als DNA.
Regel 4: energie-efficiency. Nu al is bekend dat cold storage, op beeldplaten en DNA, geen energie kost als de informatie niet wordt gebruikt. Dit terwijl magnetisch opgeslagen informatie op schijf zelf in rust nog energie kost, dit geldt niet indien de informatie is opgeslagen op tape in een taperobot. De opslag van de informatie op glas en in DNA wordt verondersteld gedurende duizenden jaren stabiel te zijn, wat opslag op magnetisch geladen media zeker niet is.
Zo hebben we de DPSC uitgebreid met 3 kolommen: voor magnetische object storage, voor glas en voor DNA. Waarbij we constateren dat de DPSC destijds ontwikkeld zijn voor magnetische opslag. Toch hebben we ervaren dat ze ook voor de nieuwe opslagtechnieken zeker bruikbaar zijn. Het opslagmedium is slechts één element in de totale organisatie van een informatiesysteem, wat omschreven kan worden als een samenhangend geheel van gegevensverzamelingen en de daarbij behorende personen, procedures, processen en programmatuur alsmede de voor het informatiesysteem getroffen voorzieningen voor opslag, verwerking en communicatie.
De nieuwe technieken van glas en DNA zijn nog niet commercieel op de markt. Toch moeten we deze ontwikkelingen aandachtig volgen de komende jaren. We zullen zien dat ook de magnetische media zich blijven ontwikkelen -de verwachting is dat bijvoorbeeld magnetische tape nog lang gebruikt zal worden door revolutionaire nieuwe vormen van comprimering van informatieopslag: de petabyte op tape is al aangekondigd. Datacenters zullen de eerste zijn die deze nieuwe technieken kunnen toepassen, gezien hun schaalomvang. Daarmee kunnen zij naar verwachting enorme besparingen bereiken op het gebied van energieverbruik, wat ecologische voordelen biedt. Dit is echter afhankelijk van de zoeksystemen die zij gebruiken, de enorme toename van gegevens en toenemend gebruik daarvan met het bijbehorende dataverkeer.
Algemene conclusie van dit onderzoek kan zijn dat er oplossingen voorhanden zijn om de behoefte aan nieuwe opslagmedia te vervullen. Daarbij worden informatiedichtheden behaald die een decennium geleden nog onmogelijk leken, en zien we zowel bestaande als nieuwe technieken een opslagdichtheid mogelijk maken op een schaal die onvoorstelbaar lijkt in vergelijking met de systemen die onze organisaties nu gebruiken. Glas heeft een robuustheid die het onderscheidt van de kwetsbare magnetische informatiedragers, DNA heeft een opslagformaat dat al eeuwen bestaat en zal blijven bestaan.
Als laatste: storage is een onderdeel is van een volledig digitaal systeem waarin de opgeslagen informatie via retrieval weer wordt teruggehaald. De kosten van opslag zijn niet alleen de 2TB-schijf die je haalt bij de MediaMarkt! We zullen dus de komende jaren alle aspecten van de informatiehuishouding goed moeten blijven onderzoeken en op elkaar afstemmen. Dit vraagt internationale samenwerking op een breed gebied waar we allen profijt van zullen hebben.
Verantwoording. Voor de artikelenserie is gebruik gemaakt van de volgende bronnen:
Over DNA-opslag:
DNA - A solution to digital data storage: DNA encoded documents enter the National Archives - JiBeop.com
DNA - An Introduction to DNA - Data Storage Alliance.pdf
DNA - Funding & tender DNA-based digital data storage
DNA - Is DNA the future of data storage? - Leo Bear-McGuinness - YouTube
DNA - Microsoft and UW demonstrate first fully automated DNA data storage - YouTube
DNA - Microsoft makes progress on fast DNA data storage | TechRepublic
DNA - The Future of Digital Storage? – Lifeline Data Centers
DNA - Uncertainties in synthetic DNA-based data storage | Nucleic Acids Research | Oxford Academic
DNA - Data Storage Technologies: What's Coming Up Next?
DNA - Data Storage Technology Affiliate | SNIA krachtenbundeling
DNA - Storage - Usage-Analysis-Requirements-and-Use-Cases-Part1-ADAS.pdf
DNA - Storage: News & features - Microsoft Research
DNA - Could DNA be solution to data storage shortage – The Transcriptome
DNA - Data Storage Alliance_2022
DNA - Data Storage_WYSS Institute
DNA_Data Storage: The Next Chapter- Geschiedenis van 50 jr geleden tot nu
DNA_Digital data storage - Wikipedia
DNA_Digital DNA Data Storage - Twist Bioscience
DNA_Fundamental Limits of DNA Storage Systems
DNA_How to store data for 1,000 years - BBC Future
DNA_Random access in large-scale DNA data storage | Nature Biotechnology
DNA_Scientists claim big advance in using DNA to store data - BBC News
DNA_Storage - Microsoft Research
DNA_storage: research landscape and future prospects - PMC-2020
DNA_Store all world's data in one room | Science | 2017
DNA_What Is DNA Data Storage? Is It the Future of Storage?
DNA- How we can store digital data in DNA | Dina Zielinski - YouTube
DNA-based digital data storage Europa
Repositories- The TRUST Principles for digital repositories | Scientific Data
Magnetic - AWS GDA - of hoe goedkoop en koud kan opslag zijn?
Magnetic - File storage, block storage, or object storage- RedHat
Magnetic - FujiFilm: Petabyte opslag op tape is in aantocht
Magnetic - Google vs AWS meer aanbod als het om ijskoude opslag gaat.
Magnetic - Koude en warme data herkennen en scheiden
Magnetic - Linear Tape-Open - Wikipedia
Magnetic - Meer toekomst voor tape dankzij Japanse doorbraak - Backupned
Magnetic - storage pyramid hot warm cold data
Magnetic_Wat zijn de verschillen tussen file storage, block storage en object storage?
Block storage vs. Object Storage: In-Depth Comparison
Object Storage - An Introduction | IBM
Object storage - resources - Scality
Object storage - store large quantities of data- SURF.nl
Object storage - The Case for Object Storage in the Media & Entertainment Industry
Object storage - What is How It Works And What Is It Used For
Object storage - Why the Film Industry Needs A Different Cloud Storage Solution
Object storage -- Gartner Magic Quadrant - Scality
Glass - 5D optical data storage - Wikipedia
Glass - 5D storage could fit 500TB on a CD-sized glass disc | Engadget
Glass - 5D-dataopslag 10.000 keer meer capaciteit dan bluRay – New Scientist
Glass - a new solution to storing data and its benefits
Glass - eeuwigdurende data-opslag - De Ingenieur
Glass - Eternal 5D data storage could record the history of humankind - University of Southampton
Glass - Microsoft Project Silica
Glass - Project Silica proof of concept stores Warner Bros Superman movie on quartz glass
Optical - 100‐Layer Error‐Free 5D Silica Glass - Wang
Optical - 5D Optical Storage Could Mean 500 TB of Data on Small Glass Disc
Optical - An Introduction to Optical Media Preservation
Optical - and Tape data media on growth track - INCOM Storage Distributor
Optical - Archival-Disc-Technology
Optical - Digital Imaging and Optical Digital Data Disk Storage Systems - NAusa 1994
Optical - Foto Superman memory crystal
Optical - How to preserve data to last 13.8 billion years
Optical - Library of Congress Optical Disc Longevity Study 2007
Optical - Optische opslagmedia draaien door - ICT Magazine
Optical - Project Silica proof of concept stores ‘Superman’ movie on quartz glass
Optical - Removable Mass Storage - IBM Documentatie
Optical - Sony Optical Disc Archive Cartridge - Sony Pro
Optical - storage arrays- a perspective for future big data storage - Nature
Optical - Tailoring Multidimensional Traps for Rewritable Multilevel Optical Data Storage
Optical - The Future of Data Centers - 5D Optical Data Storage
Optical - vendor M-DISC - Wikipedia
Optical - Why aren't optical discs the top choice
Optical - Why Laser Disc Was Way Ahead of its Time - Jamie Logie
Optical data storage- Coufal and Burr 2009
Optical data storage- How Long Will It Last?
Optical_Folio Photonics Announces Breakthrough Multi-Layer Optical Disc Storage_2022
Optical- Archival Disc is a TradeMark by Sony - Wikipedia
Optican - DVD_ontwikkeling gestopt 19 February 2008 - Toshiba
Digital Preservation - Architecture and Technology for Trusted Digital Repositories 2005
Digital Preservation - Conferentie iPRES2022
Digital Preservation - Designing Architectures f Digital Collections 2018 Meeting
Digital Preservation - Designing Architectures f Digital Collections 2022 Meeting
Digital Preservation - Getting Started -ICA
Digital Preservation - Getting Started and Making Progress - training- DPC
Digital Preservation - iPRES links naar alle conferencies
Digital Preservation - Overview of the storage criteria and usage guide -iPress2016
Digital Preservation - Requirements for Systems - A Bottom-Up Approach
Digital Preservation - What is DPC
Digital Preservation - Wikipedia
Digital Preservation -The Escalating Challenge of Preserving Enterprise Data - Furthur
Digital Preservation PREMIS DDictionary for Metadata v3.0
Digital Preservation Storage Criteria v3 2018
Digital Preservation Storage Criteria v4 Using Denmark
Digital Preservation Strategy 2022-2026 - National Archives
Digital Preservation Unesco 17 GOALS for Sustainable Development
Digital Preservation UNESCO dpmodule 2016 IRMT- 95p
Digital Storage - Designing Storage Architectures 2011 LibOfCongress
Digital Storage Futures paneldiscussion YouTube
Digitization - Avoiding a Digital Dark Age - American Scientist
Digitization a wolf in sheep's clothing 1997 -34p
FAIR The TRUST Principles for repositories - ScientificData
Infrastructure - A 21st Century Technical Infrastructure for Digital Preservation
OAIS Reference Model Magenta 2012
Sticky-shed syndrome - Wikipedia
Storage - 175 Zettabytes by 2025- IDC
Storage - 3D_modelling_EU funded societal challenges
Storage - A Tb of Storage Space - How Much is Too Much- InfoUmbrella
Storage - Care Handling Audiovisual Storage Preservation - LoC
Storage - Fujitsu - Radical New Demands
Storage - Hewlett Packard Solutions
Storage - Obscure New Trends Promise to Help Enterprises Handle a Data Avalanche
Storage - Opslagoplossingen IBM Documentatie
Storage - OSF Infrastructure Survey NDSA
Storage - Primary Storage Reviews and Ratings 2022 - Gartner
Storage - Reliable Storage Media f Electronic Records - a Guide VS
Storage - Storing and preserving data UtrechtUniversity
Storage - The 2022 Ultimate Guide to-
Storage - The TRUST Principles for digital repositories - Scientific Data
Storage - Unbreakable Cloud Storage for Data Centers - RING
Storage - Understand data storage models - Azure - Microsoft Learn
Storage - What is computer storage and how is it used - basics
Storage - write once- read maybe - How is archival storage used
Storage -the storage pyramid Scientific Diagram
Storage Criteria Usage Guide v1 2019
[1] De nog niet gepubliceerde versie 4 van de Criteria bevat een extra categorie: Systeembeveiliging. De criteria, de gebruikershandleiding, het criteriaspel en aanverwante documenten zijn open en beschikbaar voor herziening op https://osf.io/sjc6u/ , waar toekomstige aanvullingen en updates zullen worden gedeeld. Zie ook https://pure.kb.dk/en/publications/deciding-how-to-decide-using-the-digital-preservation-storage-cri.
De volledige serie artikelen door Ad van Heijst:
blog 4: Opslag van informatie op glas
blog 5: Informatieopslag in de vorm van DNA
blog 6: Technology: that's what it's all about