Jason Baron over e-mailarchivering en het voorkomen van Dark Archives #KVAN125

  • jun 2016
  • Christian van der Ven
  • ·
  • Aangepast jun 2024
  • 2
  • 171
Christian van der Ven
KIA Community
  • Verwijderde gebruiker

"Big Data is winning", stelde Jason Baron (overheidsjurist en vooral bekend van de docu The Decade of Discovery) tijdens het KVAN-jubileumcongres, en daarvan kunnen archivarissen het met selectie niet meer winnen. Tijdens de Clinton-administratie werden er zo'n 32 miljoen e-mails verstuurd, tijdens de Bush-administratie al 200 miljoen en de Obama-administratie zal naar schatting ruim een miljard e-mails achterlaten die gearchiveerd moeten worden. In de Clinton Library in Little Rock is een handjevol archivarissen zich nog altijd een muisarm aan het waarderen en selecteren om e-mails toegankelijk en beschikbaar te krijgen, een hopeloze strijd.

Veilig Barons verhaal doet me weer eens beseffen dat ik als archivaris nog altijd in de veilige kant van het universum werk. In de dagelijkse praktijk heb ik veelal te maken met oudere archieven (mooi man!) en dat gezegd hebbende moet ik concluderen dat iedere verhoging van het volume daarin relatief gering is geweest en op te vangen was met het oprekken van oude methoden. Aan dat oprekken komt natuurlijk wel een einde als je een miljard mailtjes zou moeten bewaren en beschikbaar stellen.

We zullen te maken krijgen met zogenoemde Dark Archives, archieven die beschikbaar zijn, raadpleegbaar ook, maar eigenlijk niet toegankelijk. Informatie gaat verloren in de massa, geen doorkomen aan, geen zoeken in. Puur door het volume worden we verslagen, zelfs als we de slag van het bewaren van dat digitale archief winnen, zal onze huidige mindset ervoor zorgen dat de oorlog toch nog verloren gaat. We hebben simpelweg geen methoden om dergelijke collecties snel toegankelijk te maken en daarbij ook rekening te houden met bijvoorbeeld privacy. We hebben ook niet de houding om de benodigde methoden te ontwikkelen.

Algoritmes In Amerika zullen vanaf 2019 door de NARA alleen nog vanaf die dag digitaal gecreëerde records als permanent te bewaren archief worden geaccepteerd. Het snel toegankelijk maken van grote volumes digitaal archief is daar dan ook een nijpend probleem grote uitdaging. Volgens Baron kan dat niet anders dan op de manier die ook Brewster Kahle al voorstelde: niet selecteren, maar gewoon álles opnemen (wat dan toch in strijd was met zijn voorstel voor een easy button om mailtjes in een RMS geplaatst te krijgen). En dan software laten filteren. Slimme algoritmes erop loslaten die er niet alleen voor zorgen dat alles snel beschikbaar kan komen, maar dan ook toegankelijk zal zijn. Nou ja, als je tenminste 'toegankelijk' definieert als: je kunt er doorheen zoeken en filteren.

Op de vraag hoe die algoritmes kunnen worden gedefinieerd of wie de algoritmes of het gedane werk gaat controleren, daarop bleef baron het antwoord schuldig. En ook op de vraag of er op dit vlak al iets gebeurde, bleef het antwoord vaag. Ik heb de indruk dat het vooral nog een mening is, geen werkpraktijk. Alles op zijn tijd...

Wennen ...want misschien zitten we nog volop in de fase dat we aan die werkpraktijk nog niet toe zijn hoor, dat we nog moeten wennen aan het idee van alles opnemen zonder selectie vooraf. Dat de meesten van ons eigenlijk stiekem nog het liefst toch al die mailtjes eerst zelf zouden doorlezen, voordat er ook maar iets van publiek wordt gemaakt, ook al weten we dat dit onbegonnen werk is. Ik chargeer iets, maar ik vermoed dat de meesten van ons nog ergens tussen dat laatste beeld en het idee van Baron zweven.

Hoe dan ook een zeer interessant verhaal, waarna ik meteen weer denk: hoelang zijn we nou al niet over e-mailtjes bezig?

Reacties

2 reacties, meest recent: 21 juni 2016
  • Wat ik fascinerend vind aan de oplossing van Baron, is dat het dossier (of de zaak) helemaal losgelaten wordt. Hij is een van de bedenkers van de "Capstone-approach" van het NARA. Kortweg komt het er op neer dat alle e-mail van hoge functionarissen permanent bewaard wordt, terwijl alle e-mail van lagere medewerkers na een jaar of zeven vernietigd kan worden. Het idee daar achter is enerzijds dat alle belangrijke informatie altijd langs de hogere regionen van een organisatie gaat en anderzijds dat hooggeplaatste functionarissen alleen maar belangrijke dingen e-mailen.

    Hierbij worden e-mailboxen dus als series van ontvangen en verzonden correspondentie gezien en wordt er geen relatie gelegd met documenten / informatie buiten de mailbox. Geen zaken, geen dossiers, alleen series en algoritmen. De vraag is natuurlijk: wat is erger? Onvolledige dossiers omdat de e-mails er niet in zitten of onvolledige informatie omdat er geen context bewaard is?

    Verwijderde gebruiker
  • @Ingmar: Dat is alweer concreter dan ik ervan had gemaakt. Mooie methode, met ongetwijfeld haken en ogen, die mij een beetje aan onze PIVOT-discussie doen denken (zowel de methode als de haken en ogen). Beide voorbeelden van nieuwe methoden in nieuwe omstandigheden, vooral ingegeven door het aanstonds moeten werken met grote volumes, waarbij de kritiek zich vooral richtte op gebreken op detailniveau.

    Christian van der Ven

Trefwoorden