Dataopslag in synthetisch DNA: coderen en decoderen in geheimschrift

  • dec 2023
  • Tineke van Heijst
  • ·
  • Aangepast 28 jun
  • 51
Tineke van Heijst
Green IT
  • Verwijderde gebruiker
  • Caspar Almalander
  • Ad van Heijst

Dit is blog 7 in de blogreeks over Green IT.

Wie de Archiefdagen 2023 van de KVAN bezocht, hoorde het fascinerende verhaal van onderzoeker Dina Zielinski over het opslaan van data in synthetisch DNA. Ook in haar TED-talk op YouTube (1) legt ze dit helder uit. Ondanks het vergevorderde onderzoek, zijn de kosten van het opslaan in DNA nog een struikelblok. Toch wordt verwacht dat deze technologie binnen vijf tot tien jaar commercieel beschikbaar zal zijn.

Zo werkt het

DNA zit in onze cellen als een soort blauwdruk voor ons lichaam. Het lijkt een beetje op een heel lange ketting gemaakt van vier bouwstenen: adenine (dat noemen we A), cytosine (C), guanine (G) en thymine (T). Deze bouwstenen zijn aan elkaar vastgemaakt door iets wat we waterstofbruggen noemen.

Een databestand bevat allemaal nullen en enen, zoals 00, 01, 10, en 11. Die patronen kunnen we omzetten naar de vier bouwstenen van DNA. Het is net als een soort geheimschrift, waarbij 00 wordt vertaald naar A, 01 naar C, 10 naar G, en 11 naar T. Dit 'gecodeerde bericht' gaat vervolgens naar een laboratorium, waar het wordt opgeslagen in synthetisch DNA.

Het resultaat krijg je mee in een buisje van ongeveer drie centimeter. Wanneer je de opgeslagen data wilt uitlezen, stuur je het buisje terug naar het laboratorium. Daar worden de A's, C's, G's en T's weer omgezet naar binaire code – de bits en bytes van de oorspronkelijke bestanden. (2,3)

Vele voordelen

Opslag van data in synthetisch DNA biedt allerlei voordelen: zo kun je data minstens 10.000 jaar bewaren zonder dat je data verliest. Door alle data die we niet direct beschikbaar hoeven te stellen aan gebruikers op te slaan in synthetisch DNA, kunnen we de hoeveelheid energie die nodig is voor cloudopslag aanzienlijk verminderen. Een extra voordeel is dat de data niet kan worden overschreven. (4)

Verder heeft DNA een ongelooflijk hoge datadichtheid. Zo past de informatie van 100 miljoen HD-films in iets ter grootte van een gummetje boven op een potlood. Dit komt neer op zo'n 400.000 TB, wat vergelijkbaar is met de capaciteit van een gemiddelde harde schijf van 1 TB. Men schat zelfs dat alle data op het internet kan worden opgeslagen in iets ter grootte van een schoenendoos. (5)

Een ander belangrijk voordeel van opslag in synthetisch DNA is dat zolang er mensen zijn, er altijd mogelijkheden zullen zijn om opgeslagen data te decoderen. Ons lichaam bevat namelijk zelf de code om deze vertaalslag te maken.

Maar ook nadelen

Ondanks de vele voordelen van deze technologie, zijn er op dit moment ook enkele nadelen. Denk bijvoorbeeld aan de hoge kosten: 1000 dollar per TB. Daarnaast kost het relatief veel tijd om de data te decoderen. Het proces vereist dat de data teruggaat naar het laboratorium voor een chemische bewerking, wat betekent dat de data niet direct beschikbaar is. Bovendien is er een aanzienlijk risico op kwaliteitsverlies bij herhaaldelijk decoderen van de gegevens.

Als we de milieu-impact van DNA-opslag bekijken, valt op dat als de data eenmaal is opgeslagen, er geen extra energie nodig is (cold storage). DNA functioneert echter het beste bij lagere temperaturen en in een donkere omgeving. Hierdoor is het iets gevoeliger voor omgevingsinvloeden dan bijvoorbeeld glas, waarover we later zullen praten.

Een nadeel is ook dat het coderen en decoderen gebeurt via biochemische processen (vergelijkbaar met de PCR-test die we kennen uit de coronatijd), waarbij kritieke grondstoffen worden gebruikt. Een ervan is fosfor, dat zelfs zeldzamer is dan silicium. (6)

Stabielere kwaliteit van de data

In mei 2023 verscheen een artikel in De Ingenieur waarin wordt beschreven hoe een internationaal team van onderzoekers, waaronder die van de TU Eindhoven, Radboud Universiteit en Microsoft, een microbolletje heeft ontwikkeld. Aan deze bolletjes hechten zich strengen van nucleotiden die samen één bestand vormen. (7) Hierdoor kun je veel sneller specifieke informatie terugvinden.

Voorheen moest je het hele ‘geheimschrift’ decoderen, waarbij het cruciaal was dat de data op de juiste manier was gemetadateerd om deze terug te vinden – vergelijkbaar met het zoeken in een immense stapel A4-tjes. Dankzij de microbolletjes is het nu mogelijk om gerichter te zoeken, en kun je als het ware door boeken bladeren in plaats van in een berg papierwerk te graven.

Daarnaast resulteert deze nieuwe methode in een stabielere kwaliteit van de opgeslagen data. Eerder ging na drie decoderingen ongeveer 35 procent van de kwaliteit verloren, maar met deze verbeterde aanpak is dat nog maar 0,3 procent.

Dichterbij dan we denken

Onderzoekers verwachten dat het eerste DNA-datacenter binnen vijf à tien jaar zijn deuren zal openen. Dit datacenter zal een speciale sectie bevatten waar nieuwe bestanden worden gecodeerd via DNA-synthese. Tegelijkertijd bevinden zich in een ander deel van het gebouw grote velden met bolletjes die bestanden bevatten. Een robotarm selecteert een bolletje, leest de inhoud en plaatst het vervolgens weer op zijn plek terug.

Op YouTube staat een video waarin een team van onderzoekers van de Universiteit van Washington, in samenwerking met Microsoft, het eerste volledig geautomatiseerde systeem voor het opslaan en ophalen van gegevens in synthetisch DNA demonstreert. (8) De video is opgenomen in maart 2019. Gezien de snelheid van deze ontwikkelingen, lijkt de voorspelling van vijf tot tien jaar zeker realistisch.

Blogserie

Deze blogpost is onderdeel van een serie blogposts over Green IT geschreven in opdracht van de gelijknamige netwerkgroep van het Netwerk Digitaal Erfgoed (NDE). Deze netwerkgroep monitort de ontwikkelingen rondom Green IT en de impact van de voortschrijdende digitalisering op het klimaat. Specifiek wordt daarbij gekeken naar de (toenemende) digitalisering binnen de erfgoedsector.

Eerder verschenen in deze blogserie

Thema: Introductie Green IT

1 De dubbele rol van IT in duurzaamheid

2. De noodzaak van een duurzaamheidskader voor de erfgoedsector

Thema: Dataopslag

3. De digitale databerg

4. De verborgen impact van cloudopslag

5 1% van alle data ter wereld bewaren – wat kost dat aan CO2-uitstoot?

6 De zoektocht naar duurzame alternatieven voor disks en tapes

Gebruikte bronnen:

(1) Zielinski, Dina, ‘How can we store digital data in DNA’ TED Talk beschikbaar op YouTube, laatst bekeken 1 november 2023.

(2) Seeker, ‘We Could Back Up The Entire Internet On A Gram of DNA’, YouTube video, laatst bekeken 1 november 2023.

(3) Ted-Ed, ‘Is DNA the future of data storage’, Ted-Ed beschikbaar op YouTube, latst bekeken op 1 november 2023.

(4) Heijst, Ad van, ‘Monitoring van opslagtechnieken 5: Informatieopslag in de vorm van DNA’, beschikbaar op KIA Pleio, gepubliceerd op 3 februari 2023.

(5) Reactions, ‘Is DNA The Future of Data Storage?, Youtube video, laatst bekeken 1 november 2023.

(6) De Ingenieur, ‘Aminozuren als alternatief voor de cloud’ gepubliceerd 1 mei 2019.

(7) De Ingenieur, ‘Data-opslag in DNA weer stap dichterbij’ gepubliceerd 5 mei 2023.

(8) Microsoft Research, ‘Microsoft and UW demonstrate first fully automated DNA Data Storage’, YouTube video, laatst bekeken 1 november 2023.

Trefwoorden