Het eerste artikel ging over de uitdagingen waarmee langetermijnbewaring wordt geconfronteerd. Het tweede over preservation storage en de daarvoor ontwikkelde criteria. In artikel 3 werd gefocust op veranderingen in de opslag op magnetische dragers, het vierde artikel ging over de opslag van informatieobjecten op glas. Deze keer bespreken we opslag in een synthetische DNA-structuur.
De media waarop digitale informatie wordt opgeslagen, zijn de afgelopen vijftig jaar enorm veranderd. Floppy discs, diskettes, cd’s, memory sticks en harde schijven hebben ons daarbij goede diensten bewezen, maar zijn niet meer toereikend voor de enorme bestanden die we willen opslaan. We hebben compactere media nodig, waarop meer informatie kan worden geplaatst. Deze TED-talk van Dina Zielinski, “How we can store digital data in DNA” geeft aan hoe we het kunnen oplossen- met DNA-opslag.
In het vorige artikel hebben we het al gehad over vroegere vormen van informatieopslag toen we de grotten van Lascaux noemden. Toch is er een nog oudere vorm die we regelmatig voorbij zien komen in programma’s waarin mensen op zoek zijn naar familiebanden: DNA! Een DNA-onderzoek levert informatie of mensen een gelijke voorouder hebben.
DNA, waarin de erfelijke informatie is gecomprimeerd, heeft zich gedurende miljoenen jaren ontwikkeld. Het bevindt zich in cellen als chromosomen en bestaat uit vier nucleotiden, die met waterstofbruggen aan elkaar zijn verbonden en benoemd worden als A, T, G en C. In de vorm van een dubbele helix zijn zij met elkaar vervlochten tot strengen, in specifieke combinaties die we genen noemen. Deze combinaties van nucleotiden worden in levende organismen vertaald in een eiwit. Doordat er zeer veel sequenties mogelijk zijn, kan de volgorde van nucleotiden unieke erfelijke informatie verschaffen. Zoals we letters kunnen combineren tot woorden, zinnen en boeken, zo worden ook de letters van het DNA (de nucleotiden dus) gebruikt om allerlei uniek erfelijk materiaal te coderen.
Kunnen de letters van het DNA ook gebruikt worden om woorden, zinnen, boeken en allerhande andere informatie te coderen en op te slaan in de uiterst minieme vorm, waartoe het DNA zich in de loop van miljoenen jaren heeft geëvolueerd? Het antwoord is positief: unieke combinaties van nucleotiden kunnen worden gebruikt om informatie te vertalen naar binaire code die door moderne machines wordt gebruikt om digitale gegevens te verwerken. Deze video verklaart hoe dat gaat. De nieuwe manier van DNA-informatieopslag wordt Nucleic Acid Memory genoemd. Binaire gegevens van een digitaal bestand worden rechtstreeks overgezet op de vier basen van DNA, bijvoorbeeld: 00 wordt A, 01 wordt C, 10 wordt G en 11 wordt T. Deze strategie maakt twee bits digitale informatie per nucleotide mogelijk.
Zonder al te diep op de techniek in te gaan rijst de vraag: als we informatie in DNA-formaat gaan opslaan, wat schieten we daar dan mee op? En waar slaan we het zo op dat het duurzaam beschikbaar blijft? Hoe vinden we de opgeslagen informatie snel terug?
DNA kunnen we opslaan in levend materiaal en op een synthetische manier. DNA kan bijvoorbeeld in planten worden opgeslagen. Zo wordt de mediaspecialist, archivaris of bibliothecaris de tuinman van de toekomst.
In Science lezen we hierover het volgende: DNA storage is ultracompact en kan honderdduizenden jaren meegaan, mits op een koele, droge plaats bewaard. En zolang mensen DNA lezen en schrijven, zullen ze DNA kunnen decoderen. DNA gaat in de loop der tijd niet in kwaliteit achteruit. Nieuwe technologieën kunnen grote hoeveelheden DNA tegelijk schrijven en lezen, waardoor de systemen waarin ze zijn opgeslagen kunnen worden opgeschaald. Om even een fantastisch getal te noemen: een opslagsysteem kan 215 petabytes (215 miljoen gigabytes) opslaan in een enkele gram DNA en zou in principe elk stukje informatie dat ooit door mensen is vastgelegd, kunnen opslaan in een houder ter grootte van een zeecontainer.
De kennis over DNA is nog betrekkelijk jong. In 1953 maakten de onderzoekers James Watson en Francis Crick, verbonden aan de universiteit van Cambridge bekend dat zij het raadsel van het DNA-molekuul hadden ontcijferd. Zij toonden aan dat DNA op een relatief simpele wijze immense hoeveelheden genetische informatie kon opslaan en dat door de typische dubbelhelix-structuur DNA eindeloos kopieën van zichzelf kan maken.
Toch duurde het enige tijd voordat wetenschappers in 2012 erin slaagden om digitale gegevens op te slaan in DNA. Genetici van Harvard University codeerden destijds een boek van 52.000 woorden in DNA.
In principe kan informatie in DNA worden weergegeven door de digitale informatie eenvoudigweg op DNA af te beelden en te synthetiseren. Onvolkomenheden in de synthese, sequentiebepaling, opslag en behandeling van het DNA veroorzaken echter fouten in de moleculen, waardoor foutloze opslag van informatie een uitdaging wordt. Daarom is een mechanisme nodig om een perfect gegevensherstel te garanderen. Volgens "Reading and writing digital data in DNA", van Linda C. Meiser et al., hebben zij een protocol vervaardigd waarin de technische details en nauwkeurige instructies voor het vertalen van digitale informatie naar DNA-sequenties, het fysiek hanteren van de biomoleculen, het opslaan ervan en vervolgens het opnieuw verkrijgen van de informatie door het sequencen van het DNA zijn vastgelegd. Samen met het protocol leveren zij een computercode die digitale informatie automatisch codeert naar DNA-sequenties en de informatie terug decodeert van DNA naar een digitaal bestand. Door verschillende onderzoekscentra wordt gewerkt aan verbetering van de coderingstechniek, onder andere door gebruik te maken van het kleurenspectrum. Een strategie om de integriteit van de gegevens te garanderen is door gebruik te maken van fluorescerende sondes die zich aan het DNA binden en kunnen worden afgelezen met microscopische leestechniek (Een sonde is een enkelstrengs sequentie van DNA of RNA die wordt gebruikt om zijn complementaire sequentie in het genoom van een monster te zoeken).
Over dit onderwerp verscheen een artikel van Boris Hallier in Governance and Recordkeeping Around The World, May 2022, vol. 6 no. 11, dat ik (vrijelijk) vertaalde in een blog. Het verhaalt over een geslaagde proef met het archiveren van de universele verklaring van de rechten van de mens bij het Nationaal Archief van Frankrijk. Stéphane Lemaire waarschuwt hierin voor de hoge kosten van opslag (bij DNA € 1000 per MB, op een harde schijf € 100 per Terabyte, dus DNA-opslag is 1000 keer duurder) die nu nog een belemmering vormen om deze nieuwe techniek uit te rollen. Maar is het niet vaak zo met nieuwe automatiseringsontwikkelingen dat ze bij algemeen gebruik goedkoper worden? Dit is ook de verwachting bij de kosten van synthetische DNA-opslag.
DNA-opslag staat nog in de kinderschoenen. De manier van opslag is nog niet stabiel melden meerdere onderzoeken, waaronder het zeer goed gedocumenteerde Uncertainties in synthetic DNA-based storage van Chengtao Xu et al.
Als voordelen van gegevensopslag in synthetisch DNA worden genoemd:
- synthetisch DNA blijft zeer lang stabiel (minstens 10.000 jaar wordt verwacht) zonder speciale zorg, waardoor het een veilige plaats is om digitale informatie op te slaan.
- DNA behoudt zijn integriteit zonder energietoevoer. Door geringe omvang en gewicht is het gemakkelijk op te slaan en te vervoeren. Gegevensopslag op DNA is daarom milieuvriendelijker dan traditionele methoden. Door de meeste van onze gegevens die als cold data gelden in DNA op te slaan, zouden we de hoeveelheid verbruikte energie aanzienlijk kunnen verminderen, wat de schadelijke milieueffecten van de huidige digitale informatieopslag vermindert.
- Eenmaal opgeslagen is DNA minder gevoelig voor technische storingen.
- DNA is niet herschrijfbaar en overschrijfbaar, d.w.z. het kan de opgeslagen informatie niet bijwerken zonder het hele proces van informatieopslag over te doen (als archivaris/bibliothecaris zou dit mij heel blij maken!)
- Digitale opslagmedia kennen een korte doorlooptijd qua veroudering. Magnetische media die worden gebruikt om digitale gegevens te archiveren gaan na enkele jaren in kwaliteit achteruit en vragen permanente controle en onderhoud. De verschillende opslagmedia zoals wij die kennen hebben allemaal een beperkte levensduur. Maar zolang er levende wezens en biologen bestaan, zal er iemand zijn om DNA-gegevens te lezen; dit gebeurt middels afgesproken conventies.
- Over de langetermijn gegevensopslag het volgende. Bij kamertemperatuur bedraagt de halfwaardetijd van synthetisch DNA meer dan 100 jaar, door de temperatuur te verlagen neemt de tijd waarin DNA als betrouwbaar opslagmedium kan worden gebruikt exponentieel toe. Om u een idee te geven van wat dit betekent: het volledige genoom van zowel een Neanderthaler (ca. 50.000 jaar oud) als van een oerpaard (ca. 700.000 jaar oud) kon niet alleen worden teruggevonden, maar ook met succes worden gesequenced. Dit maakt synthetische DNA het perfecte medium voor informatieopslag gedurende zeer lange termijn.
Toch moeten er nog wel enkele problemen worden overwonnen voordat DNA-opslag grootschalig kan worden toegepast. Daarmee is onder andere Microsoft Research bezig, samen met de Universiteit van Washington, en ze maken snelle vorderingen! Het gaat vooral om de schaalbaarheid en de tagging die zo belangrijk is bij het plaatsen en terugvinden van data. Dit filmpje verschaft duidelijkheid. En zoals Dough Carmean zegt: “Zolang er mensen leven zullen we ons eigen DNA willen lezen en dat betekent dat we een opslagformaat hebben dat bij ons zal zijn en altijd relevant zal zijn”. Met andere woorden: sla je op in een DNA-structuur, dan bewaar je informatie in een tijdloos model.
De nadelen voor dit moment zijn de volgende:
- Hoge kosten van DNA-synthese per opgeslagen informatieobject ten opzichte van de huidige storagetechnieken.
- Het ophalen van gegevens uit DNA vormt geen probleem, maar de tijd die daarvoor nodig is momenteel nog wel. Het is daarom voor archieven die actief preserveren (via checksums etc.) op dit moment niet handig vanwege de lange ophaaltijd.
- Wil je in DNA toegang krijgen tot een bepaald deel van de opgeslagen gegevens, dan dient het gehele opgeslagen informatieobject te worden gedecodeerd (hier is dus een duidelijke overeenkomst met storage op glas). Maar dit nadeel is overkomelijk: wil je een pagina, een hoofdstuk of een boek als geheel dan zal dit dus een kwestie zijn van op de juiste manier metadateren. Ook de metadata zul je moeten opslaan in DNA, en eigenlijk moet je hierin denken in archive information packages, waar informatieobject en metadata één geheel vormen en op hun beurt toegankelijk worden gemaakt door een inventaris, een index of catalogus. In de literatuur wordt hier tot nu toe nog geen aandacht aan besteed, daarom doen wij dit wel in de volgende blog.
Zoals de conclusie luidt in een mooi overzichtsartikel van Emy Saertre en Michael Spädt: Momenteel is DNA-opslag nog niet klaar om op grote schaal te worden gebruikt. Er wordt echter snel vooruitgang geboekt en samen met de voortdurende vooruitgang op het gebied van DNA-synthese wordt DNA als opslagmedium steeds toegankelijker. Er is nog een lange weg te gaan, en gegevensopslag in DNA zal de traditionele technologieën niet van de ene op de andere dag vervangen. Deze twee benaderingen zullen waarschijnlijk naast elkaar bestaan en dienovereenkomstig op verschillende gebieden worden gebruikt, aangezien DNA bijvoorbeeld zeer geschikt is voor langdurige opslag, terwijl flash-drives momenteel beter presteren dan DNA wat betreft kortetermijnopslag. Zodra de prijzen voor DNA-synthese zijn gedaald en een geschikte infrastructuur voor het werken met genetisch opgeslagen informatie tot stand is gebracht, houdt niets ons tegen om films te kopen in de vorm van een reageerbuisje in plaats van een DVD (zoals Dina Zielinski toont in haar TED-talk).
De volledige serie van Ad van Heijst:
blog 1: Inleiding
blog 2: Criteria voor opslag
blog 3: Magnetische opslag
blog 4: Opslag van informatie op glas
blog 5: Informatieopslag in de vorm van DNA
blog 6: Technology: that's what it's all about