Monitoring van opslagtechnieken 3: Magnetische opslag

  • jan 2023
  • Ad van Heijst
  • ·
  • Aangepast 25 okt
  • 1
  • 257
Ad van Heijst
Preservation Digitaal Erfgoed
  • Leonoor Hamers
  • Sjoerd Van Hooijdonk
  • Mathé van der Velden

Samenvatting

Dit is het derde artikel over het monitoren van bestaande en innovatieve opslagtechnieken. Dit project maakt deel uit van het NDE-programma Preservation Watch. De resultaten worden gepubliceerd als blogposts op het KIA platform preservation en via de KIA Kennisindex Preservation Watch gedeeld.

Het eerste artikel in deze reeks ging over de uitdagingen waarmee de langetermijnbewaring wordt geconfronteerd. Het tweede artikel behandelde preservation storage en de daarvoor ontwikkelde criteria, die ook vertaald zijn. In dit artikel focussen we op veranderingen in de opslag op magnetische dragers. We behandelen achtereenvolgens de file storage, block storage en object storage.

Het eerder genoemde rapport “The Escalating Challenge of Preserving Enterprise Data” van Furthur Market Research gaat uit van een opslagpiramide. Deze is ontwikkeld in de jaren zestig en heeft wel overeenkomsten met de manier waarop we vroeger met archiefstukken omgingen.

In de papieren wereld had een medewerker het dossier met de stukken die dagelijks gebruikt werden, bij de hand. Datzelfde gold voor een handbibliotheek, die niet voor niets zo heet. Boeken die niet zo vaak nodig waren, of dossiers die waren afgehandeld, werden niet in de kantooromgeving bewaard, maar in een afzonderlijke ruimte. Uiteindelijk werd uit de dossiers aan de hand van een selectielijst een keuze gemaakt wat daarvan blijvend zou worden bewaard en overgebracht naar de archiefdienst, waar de informatie openbaar werd, behoudens gestelde beperkingen. De informatieobjecten waren terug te vinden via een inventaris of catalogus, die wel op de werkplek bleef: zo kon men vooraf het gewenste boek of dossier opzoeken in het register of de kaartenbak en deze snel terugvinden aan de hand van het nummer waaronder het was geplaatst.

Eigenlijk is het met de digitale opslagpiramide niet anders. Aan de top vind je de gegevens die bedrijfskritisch zijn, de business at the speed of flash, de gegevens op schijven en in de solid state opslag. Hier kunnen ook bijvoorbeeld indexen worden geplaatst van de informatieobjecten die zich in het warme en koude datasegment kunnen bevinden, dat zich hieronder bevindt. De warme opslag vindt bijna uitsluitend plaats op schijven. Dit maakt de opslag duur en complex: schijven verbruiken energie, zelfs als ze een moment stil staan, en moeten gekoeld worden, gemonitord en waar nodig eens in de drie tot vijf jaar vervangen. Voor koude opslag zijn andere mogelijkheden, bijvoorbeeld magneetband. De capaciteit hiervan is eigenlijk oneindig, de prijs per TB is bijzonder laag. Na het wegschrijven zijn er geen stroomkosten voor het beschikbaar houden van die data nodig anders dan op het moment dat de gegevens weer worden opgevraagd. De techniek van opslag op tape maakt sinds de jaren negentig een belangrijke ontwikkeling door naar de toekomstbestendige drager LTO. Deze afkorting staat voor Linear Tape Open en wordt als techniek gedragen door een consortium van technologiebedrijven. Zo kennen we de merken HP LTO, de FUJI LTO, Quantum LTO maar ook de IBM LTO. De tape technologie heeft zich dusdanig ontwikkeld dat de huidige generatie LTO Ultrium tot wel 18TB opslagcapaciteit biedt op een datatape. De tape gedraagt zich inmiddels als een harddrive. En omdat LTO een offline medium is biedt deze bescherming tegen cybercriminelen en milieuschade. Deze (commerciële) site, TapesNL, vertelt er alles over.

Als we naar kosten kijken dan zijn er grote verschillen in de manier waarop we informatie opslaan. Hot data wordt in een omgeving gebruikt waar de opslag van 1 Gigabyte wordt gerekend aan $ 100,-. Koude data kun je veel goedkoper opslaan: de prijs die daarvoor gerekend wordt is $ 0,001 per GB. Dat scheelt nogal! Bij de media die we voor de opslag van cold data gebruiken worden tape, maar ook optical disk en DNA genoemd. DNA is voorshands nog duur, maar zeer veelbelovend: we komen hierop terug in een later artikel.

Het gebruik van de informatieobjecten bepaalt de plaats die zij innemen in de informatiepiramide. De volgende vragen dienen steeds te worden gesteld:

- Hoe vaak zal data worden benaderd (lezen & schrijven)?

- Hoe gedetailleerd moeten de toegangen zijn tot de informatieobjecten?

- Zijn er bepaalde routes in bestandstoegang?

- Zijn alle toegangen gelijkwaardig?

- Zijn de gegevens nog actueel, of verouderd?

Wanneer we nu de verschillende opslagvormen beschrijven, beginnen we met de organisatie van magneetschijven. Een uitstekend artikel over dit onderwerp vind je bij RedHat: File Storage, Block Storage or Object Storage? Daaruit hebben we ook de tekeningen overgenomen.

File storage, block storage en object storage: three of a kind

File storage

De bestanden die we dagelijks gebruiken, worden opgeslagen in een file storage structuur. Dit is een hiërarchische structuur die zich bevindt tussen het besturingssysteem en het gekozen opslagmedium. De gegevens worden geordend opgeslagen in mappen en directories op een of meerdere schijven. Een gebruiker kan zelf een mappenstructuur aanmaken, uitbreiden en deze delen met anderen. De gebruikersinterface is eenvoudig, elk bestand heeft een unieke naam en adres.

De primaire afwegingen om file storage te gebruiken zijn gebruiksvriendelijkheid, flexibiliteit en efficiëntie. Omdat het al zo lang bestaat, zijn er veel gestandaardiseerde technologieën en protocollen voor het beheer en beveiligen van de informatie.

Hoe meer bestanden worden opgeslagen, des te moeilijker wordt het om een handzame structuur te handhaven. Bij het uitdijen van de hiërarchie worden de zoekpaden erg lang, waarmee ook de zoektijden en de risico’s toenemen. Is de padlengte langer dan 256 tekens, dan zal een bestand bij verplaatsing onvindbaar worden omdat het pad dat er heen leidt, wordt afgebroken.

Block storage

Bij block storage wordt een bestand als het ware in gegevensblokken gehakt, die een uniek adres krijgen. Het besturingssysteem bepaalt waar ruimte is om de blokken te plaatsen. In plaats van in een rigide directory/subdirectory/mapstructuur kunnen de blokken overal in het systeem waar op dat moment ruimte is, worden opgeslagen. Om een bestand te openen gebruikt het besturingssysteem van de server de unieke adressen om de blokken samen te voegen tot het bestand en puzzelt zo het informatieobject weer bij elkaar met alle stukjes in de juiste volgorde. Block storage biedt een efficiënt gebruik van de beschikbare opslagcapaciteit op de hardware en levert snelle prestaties. Het werkt goed voor kritische bedrijfstoepassingen, transactionele databases en virtuele machines die een lage latentie (minimale vertraging, razendsnelle toegang) vereisen. Het biedt ook een verfijnder toegang tot gegevens en heeft bewezen consistent te zijn. De blokken zijn doorgaans ook meerdere malen opgeslagen op verschillende schijven (dit wordt redundantie genoemd) zodat, mocht een schijf uitvallen, de bestanden geen informatie verliezen.

Wanneer kies je nu voor file storage of block storage? Dat wordt uitgelegd in dit filmpje van IBM. Block storage wordt vooral gebruikt voor relationele databases met rijen en kolommen en voor bedrijfskritische informatie, de data die nagenoeg permanent gebruikt worden.

Object storage

Object storage ontstond in de jaren '90 door de groeiende vraag om ongestructureerde gegevens op te slaan. Met de komst van sociale media, streamingdiensten en platforms voor het delen van bestanden van grotere omvang zocht men naar opslagtechnieken die minder overhead vragen dan die nodig is bij de hiërarchische filestructuur.

Object storage organiseert, beheert en manipuleert bestanden als objecten. Elk object is een afzonderlijke, ondeelbare en uniek identificeerbare gegevenseenheid. De objecten worden opgeslagen in zogenaamde buckets. Dat is een groot architectuurverschil met block storage: een informatieobject wordt niet volgens een hiërarchische structuur verdeeld om in de partities te passen binnen sectoren en sporen op een of meerdere schijven. In plaats daarvan krijgt het hele object een uniek adres toegewezen.

Object storage heeft een plat bestandssysteem dat onbeperkte schaalbaarheid biedt. Elk object bestaat uit de volgende componenten: een uniek adres aan de hand waarvan het object kan worden gelokaliseerd, de metagegevens die de contextinformatie leveren van de gegevens en de gegevens zelf. Het zijn dan echter nog altijd bestanden, maar nog geen unieke AIP’s (archival information packages), zoals deze benoemd worden in het Open Archival Information System (ISO 14721). Een AIP kan immers uit meerdere informatieobjecten bestaan die een bepaalde samenhang vertonen. Die samenhang is er niet in de object store. Daarvoor moeten aanvullende metadata zorgen.

Object storage verschilt van file storage doordat het de gegevens organiseert met metadata. File storage slaat gegevens op in een hiërarchisch verband, wat leidt tot bestandspaden om de gevraagde gegevens te lokaliseren. Dit proces wordt doorgaans uitgevoerd door de software waarin de gegevens worden aangemaakt en bewaard.

Object storage houdt een tabel bij met bestandsmetadata, waarin eventuele aspecten en kenmerken van deze bestanden worden gecatalogiseerd. Het is te vergelijken met de catalogus, die we aan het begin van dit artikel aanhaalden toen we het hadden over de vroegere papieren wereld. Vanuit de catalogus worden de informatieobjecten opgezocht en opgevraagd. Dit maakt het analyseren van uiteenlopende datasets ook toegankelijker en gemakkelijker.

Inmiddels is object storage uitgegroeid tot dé voorkeursmethode voor archivering van grote verzamelingen van ongestructureerde gegevens. Een object storage kan op alle reguliere hardware draaien. Raakt het opslagmedium vol, dan schakel je eenvoudig een ander opslagmedium bij: dit maakt een eindeloze groei mogelijk. De veiligheid van de data wordt niet gegarandeerd door backups te maken, maar door informatieobjecten te dupliceren en deze duplicaten steeds met elkaar te vergelijken. Zijn er verschillen, dan moet onderzocht worden waar de fout zit en deze zal dan worden hersteld. Hoe veel duplicaten worden aangehouden is afhankelijk van het beschermingsniveau dat is vastgesteld na een risicoanalyse.

Een voorbeeld. Stel dat je de boeken in een groot bibliotheeksysteem op één platform wilt opslaan dan heb je -om een boek ooit terug te vinden- metadata nodig, zoals de auteur, publicatiedatum, uitgever, onderwerp, auteursrechten en de indicatie waar het boek staat. Deze metadata kun je opslaan in een relationele database, georganiseerd in mappen onder een hiërarchie van directories en subdirectories: file storage of block storage. Het handigst is het dan dat, wanneer je het boek eenmaal in de catalogus hebt gevonden, je het in één keer uit de storage kunt ophalen. Dat doe je met object storage. De objecten (ID, metadata en gegevens) zijn opgeslagen als "pakketten" in een platte structuur en kunnen eenvoudig worden gelokaliseerd en opgehaald met een enkele zoekactie. Het boek kan zich dan bevinden op tape, op een glasplaat of in een DNA-structuur: het ophalen duurt daarbij wel iets langer, maar gedurende de periode dat het is opgeslagen kost het geen stroom, koeling of extra beheer. Het is als het dossier in het statische archief dat wacht om gebruikt te worden. Dit maakt object storage voor archieven, bibliotheken en andere collecties uitermate interessant.

Dat iets langer duren is trouwens relatief in een tijd waar een schaatser wint met zesduizendste van een seconde. Datatransmissie kan heel snel gaan, ook van cold storage naar de plaats waar het informatieobject is opgevraagd. In de meeste gevallen zul je van tijdverlies niet veel merken. Anders wordt het wanneer we gebruik gaan maken van tape- of glasplaatrobots: de vraag en de mechanische techniek bepaalt op dat moment de wachttijd. Waarover in een latere blog meer: hoeveel tijd heb je er voor over om een informatieobject op je beeldscherm te hebben.

Hier houdt de vergelijking met papieren dossiers op. Papier vervalt na verloop van tijd: door inferieure papierkwaliteit, thermopapier, slijtage, ongedierte, schimmels, vochtinvloeden, inktvraat: er zijn vele bedreigingen. Digitale informatie kent weer andere bedreigingen: denk aan bitrot en verouderende softwaretalen. Deze bedreigingen moeten we uitschakelen, willen we informatie duurzaam opslaan in het vertrouwen dat deze weer vindbaar, beschikbaar, leesbaar, interpreteerbaar, betrouwbaar en toekomstbestendig is.

Conclusie: in zijn algemeenheid zal een organisatie de gegevens die nog dagelijks gemuteerd worden het beste opslaan in een file storage. Zijn deze gegevens ondergebracht in een database die nog dynamisch wordt gebruikt, dan is block storage het aangewezen medium. Voor informatieobjecten die een statisch karakter hebben is object storage dé uitgelezen oplossing. Het gebruik bepaalt de plaats van opslag: voor de informatieprofessional wordt het dus belangrijk om te bepalen hoe vaak informatie wordt gebruikt en aan de hand daarvan de opslagvorm te bepalen. De techniek helpt hierbij: we kunnen zien hoe vaak bestanden geraadpleegd worden. Op die manier houdt ICT momenteel al de vinger aan de pols en verplaatst informatie die niet vaak meer wordt gebruikt naar andere opslag.

Over deze opslag de volgende keer meer, wanneer we het zullen hebben over de ontwikkeling van optische media als opslagmedium.

De volledige serie van Ad van Heijst:
blog 1: Inleiding
blog 2: Criteria voor opslag
blog 3: Magnetische opslag
blog 4: Opslag van informatie op glas
blog 5: Informatieopslag in de vorm van DNA
blog 6: Technology: that's what it's all about