Monitoring van opslagtechnieken 6: Technology, that's what it's all about

  • feb 2023
  • Ad van Heijst
  • ·
  • Aangepast 28 jun
  • 2
  • 141
  • NDE Preservation Watch
Ad van Heijst
Preservation Digitaal Erfgoed
  • Lotte Wijsman
  • Mathé van der Velden
  • Leonoor Hamers

Samenvatting

Dit is het zesde en daarmee laatste artikel in de reeks over opslagtechnieken. Hierin maken we de cirkel rond door terug te gaan naar de Preservation Storage Criteria, waar we in eerste instantie mee begonnen. Zie voor eerdere artikelen onderaan deze blog.

“This is the greatest time to be in archives” zei David Ferriero, Archivaris van de Verenigde Staten tijdens de vorige Ketelaarlezing. We kunnen niet anders dan het met hem eens zijn! In de lezing werd de vraag beantwoord wat nodig is voor een goed functionerend modern archief. Ferriero’s antwoord was duidelijk: “Technology, that’s what it’s all about. Studenten zoeken vrijwel alleen nog online naar informatie, dus moeten we informatie digitaal maken en publiceren.”

Die technologie is tegelijkertijd de grootste uitdaging, met name de financiering daarvan: het is een vaste kostenpost en bij elke beslissing zitten we minstens de afschrijvingstermijn vast aan de gekozen techniek. Hoe we deze techniek bekostigd krijgen zal veel inventiviteit vragen: we zullen het belang van de bewaring van informatieobjecten moeten blijven benadrukken (en daarbij dat bewaring meer behelst dan louter opslag) bij politiek, bedrijfsleven en burgers. “Talk to the frontlines” noemde Ferreiro dit.

De afgelopen artikelenreeks hebben we de nieuwe opslagtechnieken verkend die op komst zijn: we zijn ingegaan op magnetische object storage, opslag op glasplaten en DNA, wat ook wel het opslagmedium van de natuur wordt genoemd. Gedwongen door drivers als de dataexplosie, kostenefficiëncy en een toenemend green IT-bewustzijn moeten nieuwe opslag- en retrievaltechnieken worden ontwikkeld om data op te slaan en terug te vinden. Daarin nemen grote bedrijven, waaronder Microsoft, samen met universiteiten het initiatief.

De opslagtechnieken staan natuurlijk niet op zichzelf, maar maken onderdeel uit van een veel uitgebreider beheerkader. Daarin spelen preservering -het voorkomen van verval, ervoor zorgen dat digitale informatie in de gewenste conditie blijft- en conservering -ervoor zorgen dat verminkte informatie in oorspronkelijke staat wordt teruggebracht- belangrijke rollen. De grens tussen pre- en conservering is niet zo scherp gedefinieerd als ik nu doe overigens, maar dit terzijde. We zoeken naar manieren waar het beheer de minste zorg vraagt tegen de laagst mogelijke Total Cost of Ownership (TCO, ook wel Total Lifecycle Cost genoemd), de laatste jaren ook tegen een zo beperkt mogelijke ecologische voetafdruk. Wat deze kosten verhoogt is dat de hoeveelheid cold data sneller toeneemt dan de gegevens op de andere niveaus. De kosten van de opslag van hot data zijn hoog, de kosten van cold data zijn relatief laag, alleen: de hoeveelheid is zo groot! Digitalisering werd al in 1997 een wolf in schaapskleren genoemd. Als voorbeeld: in 2025 zullen minstens 400 miljoen aangesloten auto’s op de weg zijn, die met hun navigatiesystemen 10 exabytes aan dataverkeer genereren. Al deze gegevens worden bewaard gedurende langere tijd voor testen en op simulatie gebaseerde studies, voor training en validatie voor machinaal leren en systeemveiligheidstoepassingen. Hoe gaan we dat doen (om eens niet te denken aan de digitale informatievloed die overheidsorganisaties creëren, de digitale opslag van boeken, kunstwerken: de toevloed is overweldigend)?

Opslagtechnieken is één, maar je moet informatie ook snel terugzoeken. Omdat dit gebeurt in information retrieval systemen die zelf ook weer geheugencapaciteit en rekensnelheid vragen wordt gezocht naar besparende algoritmen om informatie trefzeker en sneller terug te vinden. Ook daarin zullen keuzes moeten worden gemaakt: moeten alle informatieobjecten full-text doorzoekbaar zijn? Kunnen we voor bepaalde aggregatieniveaus volstaan met minder metadata?

De computerhistorie kent tientallen opslagmedia die niet meer kunnen worden gelezen omdat de fysieke mediaformaten en/of hun lezers om technologische of commerciële redenen verouderd zijn. Denk maar eens aan de ponskaarten waarop NASA in het verleden data opsloeg van de Apollovluchten: IBM heeft ooit een ponskaartlezer gebouwd om deze informatie opnieuw leesbaar en herbruikbaar te maken. Het antwoord tot nu toe hierop is: migratie, conversie en emulatie: de eerste is de overzetting van gegevens in een ander bestandsformaat, bij conversie worden gegevens en de toepassingsprogrammatuur naar een ander platform overgezet en bij emulatie wordt de verouderde software nagebouwd in een nieuwe softwareomgeving. Hoe meer gegevens we beheren, des te moeilijker en omslachtiger wordt het proces om de gegevens keer op keer over te zetten naar een nieuwe omgeving, naar nieuwe formaten en bij elke overzetting lopen we kans gegevens of functionaliteit van programmatuur te verliezen. Denk aan wat Brewster Kahle, grondlegger van The Internet Archive, hierover zegt in Digital Books wear out faster than Physical Books: hoe binnen korte tijd digitale boekformaten veranderden van djvu naar daisy naar pdf-a naar EPUB1, 2 en 3….

Het draait bij digitale informatieopslag niet alleen om de opslagmedia. Wat je duurzaam opslaat moet je ook kunnen terugvinden en eenmaal gevonden moet het beschikbaar zijn, leesbaar, interpreteerbaar en betrouwbaar. Dit vraagt om een breder perspectief, waarover binnen KIA in meerdere werkgroepen wordt nagedacht. Zie bijvoorbeeld de blogs van Rein van ’t Veer over verouderde bestandsformaten.

Preservation storage ondersteunt digitale opslag - "de reeks beheerde activiteiten die nodig zijn om de continue toegang tot digitale objecten te verzekeren voor zolang als nodig". Preservation storage wordt geplaatst binnen de context van het ISO OAIS Reference Model. Als aanvulling hierop heeft een werkgroep ter gelegenheid van een workshop op iPRES 2016 de criteria voor preservering nader uitgewerkt in de Digital Preservation Storage Criteria (hierna: DPSC)[1]. Het tweede artikel in deze reeks ging over deze DPSC die we ook vertaalden. De veronderstelling was dat nieuwe opslagtechnieken langs de lat van de DPSC konden worden gelegd om te bezien in hoeverre zij hiermee overeenstemden, of nieuwe criteria aan de lijst konden worden toegevoegd en of bestaande criteria moesten worden gewijzigd. In deze context omvat preservation storage dezelfde functies als de onderdelen van andere OAIS-functionaliteiten die nodig zijn om archival information packages (AIP's) op te slaan, in opslag te houden en weer op te halen (Zierau & McGovern, 2014). Dit betekent dat de DPSC ruimer zijn dan alleen de opslag van informatie. Eigenlijk zou je de opslag als een los element kunnen zien binnen de criteria, uitwisselbaar qua medium: in plaats van papieren opslag kunnen we immers microfilm gebruiken, of magnetische tape, of glasplaten, of DNA. Het OAIS zowel als de DPSC gaan er terecht van uit dat we gebruik zullen maken van een mediamix: wat snel beschikbaar moet zijn hoort op een ander medium dan wat we slechts sporadisch gebruiken. Dit vraagt een continue afstemming, omdat de verschillende opslagvormen sterk in kosten verschillen en er na verloop van tijd verplaatsingen zullen zijn van informatie van het ene opslagmedium naar het andere.

Naast de context die door het OAIS-referentiemodel wordt geboden, kan preservation storage worden beschouwd in termen van de zich ontwikkelende technologische omgeving en ondersteunende organisatie en het voortschrijdend inzicht over digitale bewaring.

Die opslagmedia kunnen dus alle huidige en toekomstige opslagmedia zijn om gegevens in op te slaan. Dit betekent dat de DPSC ook toepasbaar moeten zijn op de nieuwe media glas en DNA. Toch zullen bepaalde criteria bij met name DNA niet van toepassing zijn. We citeren hiervoor uit An Introduction to DNA Storage het volgende: gegevens die opgeslagen zijn in DNA kunnen duizenden jaren intact blijven bij kamertemperatuur in een droge atmosfeer. Fixiteitscontroles zijn niet nodig. Het formaat is onveranderlijk door zijn universele moleculaire structuur: digitale gegevens die vandaag in DNA zijn gearchiveerd, zullen over duizenden jaren nog steeds chemisch leesbaar zijn. Het onveranderlijke formaat van DNA garandeert dat, wanneer daarin digitale gegevens zijn opgeslagen, deze altijd kunnen worden gelezen en kunnen worden gedecodeerd zolang de codering waarmee het is geschreven (het leesapparaat) beschikbaar is. Gegevensmigratie is minimaal of onnodig. Hoorden we dat ook niet ooit over TIFF?

We hebben de nieuwe technieken (magnetische object storage, glas en DNA) langs de bestaande DPSC gelegd. Dan zie je dat de Criteria, voor wat betreft opslagtechniek, op zich redelijk matchen met de criteria. Enkele opmerkelijke verschillen duiden we hieronder aan.

Regel 1: de integriteitscontrole. Hieronder wordt het volgende verstaan: voert verifieerbare controles uit om veranderingen of verlies in of tussen kopieën op te sporen (bv herberekening van de checksum, fixity checks (controle op veranderbaarheid), identificatie van ontbrekende bestanden).

Voor magnetische informatieopslag zullen continu periodieke fixiteitscontroles worden uitgevoerd om verval te signaleren, te repareren en ervoor te zorgen dat de verschillende opgeslagen informatieobjecten geen onderlinge verschillen vertonen. In de eerder geciteerde introductie van DNA-opslag (hoofdstuk 3.2.2) kunnen we echter lezen dat door de duurzame aard van DNA wordt verwacht dat het onderhoud ervan -als de data in rust zijn- veel eenvoudiger zal zijn dan bij magnetische media en als zodanig geen significante kosten met zich mee zal brengen voor het bewaren van de gegevens na creatie. Datzelfde geldt voor de opslag van informatie op glasplaten: eens gebrand, blijft gebrand en kent geen vervaltermijn. Wel zullen maatregelen moeten worden getroffen om te vermijden dat glasplaten beschadigen en dat de omgeving waarin deze worden bewaard beveiligd is: dit betekent opslag op meerdere plaatsen verspreid over de wereld, afhankelijk van de waarde die aan de informatie wordt toegekend. Maar dit geldt voor alle opslagmedia.

Regel 3: kostenefficiency. Kost in totaal relatief minder dan andere vergelijkbare oplossingen doordat bij het ontwerp rekening is gehouden met kostenefficiency, bijvoorbeeld door resource pooling en -sharing, multi tenancy (meerdere gebruikers delen dezelfde toepassingen): dit is nu nog niet vast te stellen. Wel beweren leveranciers dat de oplossing van storage op glas -500TB per schijf- aanzienlijk goedkoper zal uitvallen dan de storage in DNA- vele malen hoger dan de huidige duurste magnetische opslagvorm, maar verwacht wordt dat de opslag van 1 TB als DNA in 2030 de prijs van $1 zal benaderen qua opslagkosten en dan nog eens $1 voor de sequencing. Waarbij wel de verwachting is uitgesproken dat dit dé opslag van de toekomst zal worden, en door marktwerking en schaalvergroting de kosten drastisch zullen worden verlaagd. We zien dat een marktpatij als Microsoft op twee paarden wedt: glas zowel als DNA.

Regel 4: energie-efficiency. Nu al is bekend dat cold storage, op beeldplaten en DNA, geen energie kost als de informatie niet wordt gebruikt. Dit terwijl magnetisch opgeslagen informatie op schijf zelf in rust nog energie kost, dit geldt niet indien de informatie is opgeslagen op tape in een taperobot. De opslag van de informatie op glas en in DNA wordt verondersteld gedurende duizenden jaren stabiel te zijn, wat opslag op magnetisch geladen media zeker niet is.

Zo hebben we de DPSC uitgebreid met 3 kolommen: voor magnetische object storage, voor glas en voor DNA. Waarbij we constateren dat de DPSC destijds ontwikkeld zijn voor magnetische opslag. Toch hebben we ervaren dat ze ook voor de nieuwe opslagtechnieken zeker bruikbaar zijn. Het opslagmedium is slechts één element in de totale organisatie van een informatiesysteem, wat omschreven kan worden als een samenhangend geheel van gegevensverzamelingen en de daarbij behorende personen, procedures, processen en programmatuur alsmede de voor het informatiesysteem getroffen voorzieningen voor opslag, verwerking en communicatie.

De nieuwe technieken van glas en DNA zijn nog niet commercieel op de markt. Toch moeten we deze ontwikkelingen aandachtig volgen de komende jaren. We zullen zien dat ook de magnetische media zich blijven ontwikkelen -de verwachting is dat bijvoorbeeld magnetische tape nog lang gebruikt zal worden door revolutionaire nieuwe vormen van comprimering van informatieopslag: de petabyte op tape is al aangekondigd. Datacenters zullen de eerste zijn die deze nieuwe technieken kunnen toepassen, gezien hun schaalomvang. Daarmee kunnen zij naar verwachting enorme besparingen bereiken op het gebied van energieverbruik, wat ecologische voordelen biedt. Dit is echter afhankelijk van de zoeksystemen die zij gebruiken, de enorme toename van gegevens en toenemend gebruik daarvan met het bijbehorende dataverkeer.

Algemene conclusie van dit onderzoek kan zijn dat er oplossingen voorhanden zijn om de behoefte aan nieuwe opslagmedia te vervullen. Daarbij worden informatiedichtheden behaald die een decennium geleden nog onmogelijk leken, en zien we zowel bestaande als nieuwe technieken een opslagdichtheid mogelijk maken op een schaal die onvoorstelbaar lijkt in vergelijking met de systemen die onze organisaties nu gebruiken. Glas heeft een robuustheid die het onderscheidt van de kwetsbare magnetische informatiedragers, DNA heeft een opslagformaat dat al eeuwen bestaat en zal blijven bestaan.

Als laatste: storage is een onderdeel is van een volledig digitaal systeem waarin de opgeslagen informatie via retrieval weer wordt teruggehaald. De kosten van opslag zijn niet alleen de 2TB-schijf die je haalt bij de MediaMarkt! We zullen dus de komende jaren alle aspecten van de informatiehuishouding goed moeten blijven onderzoeken en op elkaar afstemmen. Dit vraagt internationale samenwerking op een breed gebied waar we allen profijt van zullen hebben.

Verantwoording. Voor de artikelenserie is gebruik gemaakt van de volgende bronnen:

Over DNA-opslag:

DNA - A solution to digital data storage: DNA encoded documents enter the National Archives - JiBeop.com

DNA - An Introduction to DNA - Data Storage Alliance.pdf

DNA - Funding & tender DNA-based digital data storage

DNA - Is DNA the future of data storage? - Leo Bear-McGuinness - YouTube

DNA - Microsoft and UW demonstrate first fully automated DNA data storage - YouTube

DNA - Microsoft makes progress on fast DNA data storage | TechRepublic

DNA - The Future of Digital Storage? – Lifeline Data Centers

DNA - Toward nanoscale DNA writers: Unlocking scalable DNA data writing technology - Microsoft Research

DNA - Uncertainties in synthetic DNA-based data storage | Nucleic Acids Research | Oxford Academic

DNA - Data Storage Technologies: What's Coming Up Next?

DNA - Data Storage Technology Affiliate | SNIA krachtenbundeling

DNA - Smart tagging - MISL

DNA - Storage - Usage-Analysis-Requirements-and-Use-Cases-Part1-ADAS.pdf

DNA - Storage: News & features - Microsoft Research

DNA - Could DNA be solution to data storage shortage – The Transcriptome

DNA - Data Storage Alliance_2022

DNA - Data Storage_WYSS Institute

DNA_Data Storage: The Next Chapter- Geschiedenis van 50 jr geleden tot nu

DNA_Digital data storage - Wikipedia

DNA_Digital DNA Data Storage - Twist Bioscience

DNA_Fundamental Limits of DNA Storage Systems

DNA_How to store data for 1,000 years - BBC Future

DNA_Random access in large-scale DNA data storage | Nature Biotechnology

DNA_Scientists claim big advance in using DNA to store data - BBC News

DNA_Storage - Microsoft Research

DNA_storage: research landscape and future prospects - PMC-2020

DNA_Store all world's data in one room | Science | 2017

DNA_What Is DNA Data Storage? Is It the Future of Storage?

DNA- How we can store digital data in DNA | Dina Zielinski - YouTube

DNA-based digital data storage Europa

Repositories- The TRUST Principles for digital repositories | Scientific Data

Over magnetische media:

Magnetic - AWS GDA - of hoe goedkoop en koud kan opslag zijn?

Magnetic - File storage, block storage, or object storage- RedHat

Magnetic - FujiFilm: Petabyte opslag op tape is in aantocht

Magnetic - Google vs AWS meer aanbod als het om ijskoude opslag gaat.

Magnetic - Koude en warme data herkennen en scheiden

Magnetic - Linear Tape-Open - Wikipedia

Magnetic - Meer toekomst voor tape dankzij Japanse doorbraak - Backupned

Magnetic - storage pyramid hot warm cold data

Magnetic_Wat zijn de verschillen tussen file storage, block storage en object storage?

Over magnetische block en object storage:

Block storage - Wikipedia

Block storage vs. Object Storage: In-Depth Comparison

Object Storage - An Introduction | IBM

Object storage - Overview of

Object storage - resources - Scality

Object storage - store large quantities of data- SURF.nl

Object storage - The Case for Object Storage in the Media & Entertainment Industry

Object storage - What is How It Works And What Is It Used For

Object storage - Why the Film Industry Needs A Different Cloud Storage Solution

Object storage - Wikipedia

Object storage -- Gartner Magic Quadrant - Scality

Over optische opslag op glas en BluRay:

Glass - 5D optical data storage - Wikipedia

Glass - 5D storage could fit 500TB on a CD-sized glass disc | Engadget

Glass - 5D-dataopslag 10.000 keer meer capaciteit dan bluRay – New Scientist

Glass - a new solution to storing data and its benefits

Glass - eeuwigdurende data-opslag - De Ingenieur

Glass - Eternal 5D data storage could record the history of humankind - University of Southampton

Glass - Microsoft Project Silica

Glass - Project Silica proof of concept stores Warner Bros Superman movie on quartz glass

Glass - Voxel - Wikipedia

Optical - 100‐Layer Error‐Free 5D Silica Glass - Wang

Optical - 5D Optical Storage Could Mean 500 TB of Data on Small Glass Disc

Optical - An Introduction to Optical Media Preservation

Optical - and Tape data media on growth track - INCOM Storage Distributor

Optical - Archival-Disc-Technology

Optical - BluRay - Wikipedia

Optical - Digital Imaging and Optical Digital Data Disk Storage Systems - NAusa 1994

Optical - Foto Superman memory crystal

Optical - How to preserve data to last 13.8 billion years

Optical - IBM Documentatie

Optical - Library of Congress Optical Disc Longevity Study 2007

Optical - Optische opslagmedia draaien door - ICT Magazine

Optical - Project Silica proof of concept stores ‘Superman’ movie on quartz glass

Optical - Removable Mass Storage - IBM Documentatie

Optical - Reversible 3D optical data storage and information encryption in photo-modulated transparent glass medium

Optical - Sony Optical Disc Archive Cartridge - Sony Pro

Optical - storage arrays- a perspective for future big data storage - Nature

Optical - Tailoring Multidimensional Traps for Rewritable Multilevel Optical Data Storage

Optical - The Future of Data Centers - 5D Optical Data Storage

Optical - vendor M-DISC - Wikipedia

Optical - Why aren't optical discs the top choice

Optical - Why Laser Disc Was Way Ahead of its Time - Jamie Logie

Optical data storage- Coufal and Burr 2009

Optical data storage- How Long Will It Last?

Optical_Folio Photonics Announces Breakthrough Multi-Layer Optical Disc Storage_2022

Optical- Archival Disc is a TradeMark by Sony - Wikipedia

Optican - DVD_ontwikkeling gestopt 19 February 2008 - Toshiba

Optische schijf - Wikipedia

Overzichten_opslagtechnieken

Digital Preservation - Architecture and Technology for Trusted Digital Repositories 2005

Digital Preservation - Conferentie iPRES2022

Digital Preservation - Designing Architectures f Digital Collections 2018 Meeting

Digital Preservation - Designing Architectures f Digital Collections 2022 Meeting

Digital Preservation - Getting Started -ICA

Digital Preservation - Getting Started and Making Progress - training- DPC

Digital Preservation - iPRES links naar alle conferencies

Digital Preservation - Overview of the storage criteria and usage guide -iPress2016

Digital Preservation - Requirements for Systems - A Bottom-Up Approach

Digital Preservation - What is DPC

Digital Preservation - Wikipedia

Digital Preservation -The Escalating Challenge of Preserving Enterprise Data - Furthur

Digital Preservation Handbook

Digital Preservation PREMIS DDictionary for Metadata v3.0

Digital Preservation Storage Criteria v3 2018

Digital Preservation Storage Criteria v4 Using Denmark

Digital Preservation Strategy 2022-2026 - National Archives

Digital Preservation Unesco 17 GOALS for Sustainable Development

Digital Preservation UNESCO dpmodule 2016 IRMT- 95p

Digital Storage - Designing Storage Architectures 2011 LibOfCongress

Digital Storage Futures paneldiscussion YouTube

Digitization - Avoiding a Digital Dark Age - American Scientist

Digitization - European Commission report on Cultural Heritage - Digitisation, Online Accessibility and Digital Preservation

Digitization a wolf in sheep's clothing 1997 -34p

FAIR The TRUST Principles for repositories - ScientificData

Infrastructure - A 21st Century Technical Infrastructure for Digital Preservation

OAIS Reference Model Magenta 2012

Perma cc - User_Guide

Sticky-shed syndrome - Wikipedia

Storage - 175 Zettabytes by 2025- IDC

Storage - 3D_modelling_EU funded societal challenges

Storage - A Tb of Storage Space - How Much is Too Much- InfoUmbrella

Storage - Care Handling Audiovisual Storage Preservation - LoC

Storage - Fujitsu - Radical New Demands

Storage - Fujitsu_Solutions

Storage - Hewlett Packard Solutions

Storage - Obscure New Trends Promise to Help Enterprises Handle a Data Avalanche

Storage - Opslagoplossingen IBM Documentatie

Storage - OSF Infrastructure Survey NDSA

Storage - Primary Storage Reviews and Ratings 2022 - Gartner

Storage - Reliable Storage Media f Electronic Records - a Guide VS

Storage - Storing and preserving data UtrechtUniversity

Storage - The 2022 Ultimate Guide to-

Storage - The TRUST Principles for digital repositories - Scientific Data

Storage - Unbreakable Cloud Storage for Data Centers - RING

Storage - Understand data storage models - Azure - Microsoft Learn

Storage - What is computer storage and how is it used - basics

Storage - write once- read maybe - How is archival storage used

Storage -the storage pyramid Scientific Diagram

Storage Criteria Usage Guide v1 2019

[1] De nog niet gepubliceerde versie 4 van de Criteria bevat een extra categorie: Systeembeveiliging. De criteria, de gebruikershandleiding, het criteriaspel en aanverwante documenten zijn open en beschikbaar voor herziening op https://osf.io/sjc6u/ , waar toekomstige aanvullingen en updates zullen worden gedeeld. Zie ook https://pure.kb.dk/en/publications/deciding-how-to-decide-using-the-digital-preservation-storage-cri.

De volledige serie artikelen door Ad van Heijst:

blog 1: Inleiding

blog 2: Criteria voor opslag

blog 3: Magnetische opslag

blog 4: Opslag van informatie op glas

blog 5: Informatieopslag in de vorm van DNA

blog 6: Technology: that's what it's all about

Trefwoorden