De digitale databerg

  • nov 2023
  • Tineke van Heijst
  • ·
  • Aangepast 28 jun
  • 73
Tineke van Heijst
Green IT
  • Caspar Almalander
  • Tamara van Zwol
  • Verwijderde gebruiker
  • Jack Karelse
  • Dick de Laat

Dit is blog 3 in de blogreeks over Green IT.

Heb je ooit stilgestaan bij de immense hoeveelheid data die we wereldwijd elke minuut genereren? Sinds 2013 biedt de 'Data Never Sleeps Infographic' hierin inzicht. In 2022 hebben we bijvoorbeeld elke minuut 231,4 miljoen e-mails verstuurd, 66.000 foto's gedeeld op Instagram en 500 uur aan video geüpload op YouTube. Indrukwekkende getallen, vooral als je bedenkt dat al deze data op verschillende plaatsen terecht komt – en zelden wordt verwijderd.​​

De International Data Corporation voorspelt dat de wereldwijde databerg groeit naar 166 zettabytes in 2025 en zelfs naar 221 zettabytes in 2026 (1). Getallen waar je wellicht niet direct een gevoel bij hebt. Om je een beter beeld te geven, heeft MyNASA Data (2) de meeteenheden van data in perspectief geplaatst:

Unit

Waarde

Voorbeeld

Kilobytes (KB)

1.000 bytes

Een paragraaf van een tekstdocument

Megabytes (MB)

1.000 kilobytes

Een kleine roman

Gigabytes (GB)

1.000 megabytes

Beethovens 5e Symphonie

Terabytes (TB)

1.000 gigabytes

Alle röntgenfoto’s in een groot ziekenhuis

Petabytes (PB)

1.000 terabytes

De helft van de collectie van alle academische onderzoeksbibliotheken in de VS

Exabytes (EB)

1.000 petabytes

Ongeveer een vijfde van alle woorden die mensen ooit hebben gesproken

Zettabytes (ZB)

1.000 exabytes

Evenveel informatie als er zandkorrels zijn op alle stranden van de wereld

Yottabytes (YB)

1.000 zettabytes

Evenveel informatie als er atomen zijn in 7.000 menselijke lichamen

De voorbeelden in de derde kolom van de tabel geven een indruk hoe omvangrijk onze databerg inmiddels is. In 2026 wordt onze dataverzameling naar verwachting maar liefst 200 keer groter dan het aantal zandkorrels op alle stranden ter wereld. Ook de YouTube-video van Techtarget, getiteld: ‘What are Kilo, Mega, Giga, Tera, Peta, Exa, Zetta and All That?’, legt in eenvoudige bewoording uit hoe dataomvang wordt gemeten (3).

Is al die data nodig? Maak kennis met dark data

Als we inzoomen op de wereldwijde dataopslag, blijkt dat 60-70 procent van de data die binnen een organisatie ontstaat, kan worden geclassificeerd als dark data (5). Deze gegevens omvatten data die organisaties verzamelen, verwerken en opslaan tijdens hun dagelijkse bedrijfsactiviteiten, maar die vervolgens niet meer voor andere doeleinden wordt gebruikt (6). Een voorbeeld hiervan zijn bijvoorbeeld een apart document met aantekeningen die verwerkt worden tot een rapportage. Hoewel deze data dus niet meer actief wordt benut, wordt ze wel opgeslagen en meegenomen in back-ups, wat - eenmaal in de cloud - zorgt voor een continu energieverbruik.

Dit aspect kwam ook naar voren in het onderzoek ‘Veritas: The UK 2020 Databerg Report Revisited’(7). In dit onderzoek hebben Veritas en Vanson Bourne de groeiende databerg in 2015 en 2020 geanalyseerd, waarbij ze de vergelijking maakten met het spreekwoordelijke topje van de ijsberg. Het merendeel bevindt zich onder water, buiten ons zicht. Kortom, de werkelijke omvang van de databerg is vele malen groter dan wat we gewoonlijk waarnemen.

De onderzoekers van het Databerg Report zien, zoals eerder aangegeven, de data ‘onder het wateroppervlak’ als dark data. Dit betreft gegevens waarvan onduidelijk is waarvoor ze dienen. Ook hanteren de onderzoekers nog een categorie ROT data, wat staat voor Redundant, Obsolete of Trivial data. In gewoon Nederlands: gegevens die niet meer relevant zijn, weinig of geen waarde voor de organisatie hebben of die op meerdere plaatsen zijn opgeslagen. Een voorbeeld hiervan zijn bijvoorbeeld de notulen die zijn rondgestuurd en door iedere deelnemer van de vergadering wordt opgeslagen.

Grootste deel opgeslagen gegevens overtollig

Wanneer je beide categorieën bij elkaar optelt, blijkt dat in 2015 88 procent en in 2020 81 procent van alle data kan worden aangemerkt als dark of ROT data. Ook zien we dat in 2015 12 en in 2020 19 procent behoort tot bedrijfskritische data, oftewel data die je wilt (en vaak ook moet) bewaren. Hier zie je dus een lichte verschuiving. Dit komt doordat meer organisaties een strategie hebben aangenomen om hun data te labelen en ROT data op te sporen. De auteurs van het Veritas rapport merken hierbij wel op dat die strategie slechts een beperkte impact heeft, omdat organisaties vaak niet over middelen beschikken om dit complexe probleem daadwerkelijk aan te pakken.

Figuur afkomstig uit het Veritas Databerg Report 2020, pagina 7.

Gevolgen van dark data

Wanneer slechts 19 procent van de data geclassificeerd kan worden als bruikbare bedrijfskritische data en 81 procent als dark en ROT data, verspilt een organisatie onnodig veel geld aan opslag- en onderhoudskosten. Volgens Joost Rutgers in zijn LinkedIn-post ‘Hoe ROT zijn de gegevens in uw organisatie??’ (8) leidt dit niet alleen tot productiviteitsverlies, maar ook tot compliance en beveiligingsproblemen. Dit komt doordat een organisatie niet weet welke gegevens ze bezit en waar deze zich in de organisatie bevinden. Het probleem van het energieverbruik en de daarmee samenhangende (onnodige) CO2-uitstoot om al die data beschikbaar te houden wordt hierbij nog niet eens genoemd.

Het is dus om meerdere redenen van belang dat organisaties regelmatig hun informatiebestanden en gegevens onder de loep nemen en medewerkers aanmoedigen om hun digitale werkomgeving op te ruimen.

Doe mee met Digital Clean Up Day

De ongebreidelde groei van informatie was voor de Franse IT'er Kevin Guerin aanleiding om in 2020 de eerste editie van Digital Clean Up Day te organiseren. Het doel van deze dag, geïnspireerd door de World CleanUp Day (9), is om wereldwijd bewustzijn te creëren over de ecologische impact van de digitale industrie. Dit initiatief moedigt mensen aan om actie te ondernemen door hun digitale gegevens op te schonen en ongebruikte apparatuur die doelloos rondzwerft een tweede leven te geven.

Wat begon als een lokaal initiatief in Frankrijk, breidde al snel uit naar Italië en Zwitserland. Met de Digital Clean Up Day in 2022 deden mensen uit 124 verschillende landen mee en werd er in totaal 530.884 GB aan data gewist – een besparing van 133 ton CO2-uitstoot per jaar.

Ga aan de slag – het is heel eenvoudig

Hoeveel dark data bevindt zich in jouw organisatie? En op je privé-computer? Hoeveel ruimte en CO2-uitstoot kun je besparen door overbodige gegevens te verwijderen? Praktische stappenplannen vind je op de website van Digital Clean Up Day (10).

In de volgende blog gaan we in op de opslag van data in de cloud, de meest gangbare opslagmethode, en kijken we naar de impact van datacentra op het veranderende klimaat.

Blogserie Green IT

Deze blogpost is onderdeel van een serie blogposts over Green IT geschreven in opdracht van de gelijknamige netwerkgroep van het Netwerk Digitaal Erfgoed (NDE). Deze netwerkgroep monitort de ontwikkelingen rondom Green IT en de impact van de voortschrijdende digitalisering op het klimaat. Specifiek wordt daarbij gekeken naar de (toenemende) digitalisering binnen de erfgoedsector.

Eerder verschenen in deze blogserie

Thema: Introductie Green IT

1 De dubbele rol van IT in duurzaamheid

2. De noodzaak van een duurzaamheidskader voor de erfgoedsector

Gebruikte bronnen

(1) IDC, ‘High Data Growth and Modern Applications Drive New Storage Requirements in Digitally Transformed Enterprises: a whitepaper sponsored by Dell Technologies and NVIDIA’, gepubliceerd juli 2022.

(2) Tabel afkomstig van MyNasaData: https://mynasadata.larc.nasa.gov/sites/default/files/inline-images/datavolume_0.png

(3) De YouTube video van TechTarget ‘What are Kilo, Mega, Giga, Tera, Peta, Exa, Zetta and All That?’, gepubliceerd in 2020.

(4) De ‘Data Never Sleeps’ infographics zijn te vinden op https://www.domo.com/data-never-sleeps (laatst geraadpleegd 5 oktober 2023).

(5) Zippia ’26 Stunning Big Data Statistics (2023): Market Size, Trends and Facts’ gepubliceerd op 16 januari 2023.

(6) Gartner, ‘IT Gartner Glossary: dark data’ (laatst geraadpleegd 5 oktober 2023).

(7) Veritas: The UK 2020 Databerg Report Revisited, gepubliceerd in 2020.

(8) Rutgers, Joost, ‘Hoe ROT zijn de gegevens in uw organisatie??’, Linkedin Post van 28 april 2022.

(9) The World Clean Up Day is een dag waarop miljoenen vrijwilligers wereldwijd de straat opgaan om afval te verzamelen. Kijk voor meer informatie op https://www.worldcleanupday.org/

(10) Instructies en hulpmiddelen om aan de slag te gaan met digitaal opruimen vind je op de website van de Digital Clean Up Day: https://www.digitalcleanupday.org/home/resources-and-materials/

Trefwoorden