Een inkijkje bij het NA: archiveren van een eigen account op sociale media

  • 11 jul
  • Eijkel Susanne van den
  • ·
  • Aangepast 16 jul
  • 8
  • 820
  • 1
  • Community manager KIA
Eijkel Susanne van den
Preservation Digitaal Erfgoed
  • Stéphanie Gautier
  • Ilona van der Linden
  • Sander Wellens
  • Vincent Post
  • Ger Wischmann
  • Marin Rappard
  • Lotte Wijsman
  • Judith van Kooten
  • Daniël (Danny) Bol
  • Geert Leloup
  • Sandra Linssen
  • Jasper Slob
  • Twan Mars
  • Mark Alphenaar
  • Chido Houbraken
  • Community manager KIA

Archiveren van sociale media is al langer onderwerp van discussie. Niet zozeer waarom het gearchiveerd moet worden, maar wel wat je precies binnenhaalt en hoe je dat doet. Dat hangt natuurlijk ook af van met welk doel en voor wie je de materie archiveert. Het Nationaal Archief (NA) heeft het eigen Twitter (inmiddels bekend als ‘X’) account binnengehaald, met het oog op archiveren van overheidsinformatie op sociale media. Er zijn verschillende manieren om sociale media te archiveren, op te slaan en beschikbaar te stellen. In deze blog lees je over één van deze manieren. Wil jij meedenken over wat de beste manier is?

Einde van een account

Het NA had twee accounts op Twitter, een zakelijk - en een publieksaccount. Sinds 1 juli 2021 verschijnen zowel zakelijke als publieke berichten vanaf één account. Dit was voorheen het zakelijke account van het NA. Het publieksaccount moest dus gearchiveerd worden en daar hebben we intern een project voor opgezet. Met de kennis van nu, zou je idealiter al iets ingericht hebben voor archivering van sociale media. Dat was echter niet het geval, waardoor het archiveren achteraf gebeurde. Dat bepaalde voor een deel de aanpak en de scope van ons project.

Het is belangrijk om goed te bedenken wat je precies wil veiligstellen. Dit helpt je namelijk kiezen met een methode hoe je dat gaat doen. Gaat het enkel om de posts die vanaf een bepaald account zijn gemaakt? Of ook om de interactie die op sociale media heeft plaatsgevonden? Daarmee bedoelen we bijvoorbeeld de mogelijkheid om posts te liken, reposten, of erop te reageren. Welke oplossing we ook zouden kiezen, we hadden één belangrijk criterium. We wilden namelijk voldoen aan de eisen van duurzame toegankelijkheid.

Methode (oftewel #hoedan?!)

Binnen het NA is een onderzoek geweest naar de mogelijkheden om sociale media te archiveren. Er zijn verschillende tools uitgeprobeerd en er zijn een aantal eisen geformuleerd. Zo moest de interactie bewaard blijven. Ook vonden we het belangrijk dat de weergave zoals het destijds op het web gepresenteerd was (inhoud, vorm en structuur), behouden bleef. De persoonlijke berichten die verstuurd kunnen worden via sociale media, zagen we niet als onderdeel van wat we wilden archiveren. Aangezien we wisten dat één van de NA Twitter accounts opgeheven zou worden, zijn we begonnen met het archiveren van dat account. Andere sociale media platformen en accounts waren dus buiten scope van het project.

Toen we begonnen met het project, kon het binnenhalen van Twitter op grofweg drie manieren.

  1. Binnenhalen van je eigen account door het te downloaden. Wanneer je inlogde bij Twitter had je de optie om je eigen data te downloaden (dit kan bij X overigens nog steeds). Je krijgt dan een ZIP met onder andere JavaScript bestanden en een HTML index van je archief. Hoewel je op deze manier beschikt over een volledig archief van je eigen data, bevat het ook de persoonlijke berichten die we juist niet wilden opnemen. Daarnaast zitten er verkleinde afbeeldingen en (verkorte) links in het archief. De afbeeldingen zoals ze gepost zijn en de links verwijzen naar de online omgeving. Indien het platform helemaal opgeheven zou worden, zou je dus ook een deel van je data kwijt zijn omdat dat niet in het archief zit. Deze methode rijmt dus niet met de criteria van duurzame toegankelijkheid en de originele weergave die we wilden behouden.

  2. Het account binnenhalen via de API. Op deze manier haal je enkel de data binnen via de Twitter API en kun je die analyseren. Deze data is niet beperkt tot één account en dus te ruim voor de scope van ons project. Bovendien bevat een dergelijke download geen visuele (of materiële) aspecten van het oorspronkelijke document, waardoor het valt te betwisten of je API data wel als een authentieke weergave van het platform kan beschouwen. Bovendien kondigde Twitter in februari 2023 aan dat de vrije toegang tot de API niet meer ondersteund zou worden. Het zou wel mogelijk zijn om gebruik te maken van een betaalde variant.

  3. Benadering die meer in de buurt komt van webarchivering (harvesten). Dit is de methode die we uiteindelijk hebben gekozen. We hebben gebruik gemaakt van WebRecorder. Dit is een opensource tool, die het mogelijk maakt om interactieve websites binnen te halen. WebRecorder is als plug-in te installeren in je browser. Je kunt daarmee zowel handmatig als geautomatiseerd webpagina’s harvesten. Dankzij deze methode konden we ons beperken tot het eigen NA account en het was mogelijk om de data op te slaan in het WARC-formaat (voorkeursformaat voor web- en sociale media archieven).

Meer likes en verdwenen afbeeldingen

Helaas was het niet mogelijk om verder terug te scrollen in het account dan 25 januari 2018. Bij een onbetaald Twitter account mag je namelijk een maximaal aantal tweets per dag inzien, waardoor de tweets van 2012 tot 2018 niet beschikbaar waren en dus ook niet gearchiveerd konden worden met behulp van WebRecorder. Dat was wel mogelijk voor tweets tussen 2018 en 2022. Het archief kon via de browser worden ingezien, maar het is ook mogelijk om een export op te slaan. Bijvoorbeeld in het WARC-formaat. Op het eerste gezicht zijn we tevreden over de methode, want de “Look and Feel” van het platform die we belangrijk vinden, is inderdaad behouden gebleven. Je ziet bijvoorbeeld niet alleen de (re)posts die vanaf het NA account zijn gepubliceerd, maar ook het aantal likes, reposts en commentaren.

Naast het nadeel dat we tweets van voor 2018 niet konden archiveren, zagen we ook verschillen tussen het live web en de gearchiveerde tweets. Het aantal likes kwam bijvoorbeeld niet overeen met de live (re)posts en sommigen afbeeldingen waren niet gearchiveerd. Hieronder in het screenshot is bijvoorbeeld te zien dat de repost van het NA wel de link pointer.kro-ncrv.nl bevat (rechts), maar niet de afbeelding die wel bij de live post te zien is (links).

Screenshot van live repost door NA (links) waar de afbeelding bij de link te zien is en rechts de gearchiveerde repost zonder afbeelding.

Nieuwe handreiking op komst

Hoe nu verder? De ervaringen die we hebben opgedaan, nemen we mee in de handreiking over sociale media archivering die we als NA samen met collega-experts uit het veld ontwikkelen. Deze handreiking gaat bestaan uit vijf modules, waarin onder andere wordt ingegaan op het juridisch kader en de criteria en technieken om sociale media binnen te halen. Dit kennisproduct bouwt onder andere voort op het project sociale media archivering van het Rijksprogramma voor Duurzaam Digitale Informatiehuishouding (RDDI), dat eind 2023 is afgerond. Met behulp van een redactiegroep zijn er al drie modules geschreven, die na de zomer op de website van het NA worden gepubliceerd. Deze zomer wordt gewerkt aan technieken en praktijkvoorbeelden. Deze handreiking zal breder zijn dan het interne onderzoek dat NA heeft uitgevoerd, en zich dus niet alleen richten op Twitter (X), maar ook op platformen zoals Facebook en LinkedIn.

Denk mee!

Ben jij al bezig met sociale media archivering? En heb je praktijkvoorbeelden van hoe het wel of juist helemaal niet moet? Dan komen we graag met je in contact! Laat hieronder een reactie achter, of mail mij via: susanne.vandeneijkel@nationaalarchief.nl. Ook als je vragen hebt of meer wilt weten over het onderwerp hoor ik graag van je.

Reacties

8 reacties, meest recent: 23 juli
  • Bedankt @chido, voor je reactie! Het klopt dat je dan die data wel hebt (je kan immers je volledige account downloaden), maar zoals ik schreef kent dat nadelen. Daarnaast is de weergave niet authentiek. Bijvoorbeeld bij retweets zie je alleen de reactie van het account, maar niet de originele post meer waar je op gereageerd hebt. Er is wel een link naar die post, maar die verwijst naar het live web.

    Dat zie je bijvoorbeeld in onderstaande screenshots. De eerste afbeelding toont de retweet op het live web, de tweede is de retweet uit het archief.

    Eijkel Susanne van den
  • Hoi Susunne, interessant verhaal en opvallend weinig veranderd sinds ik zo'n ongeveer hetzelfde proces ben doorgelopen een paar jaar geleden toen wij tijdens corona social media wilde archiveren.

    In punt 2 haal je de betaalde variant aan waarbij de API nog wel zou werken. Ik begrijp dat jullie geen betaald blauw vinkje hadden voor dat oude account? Voor jullie huidige account ook niet zie ik. Een bewuste keuze?

    Als jullie een betaald account hadden genomen, dan was er dus wel in webrecorder verder terug te scrollen? Wilde jullie niet voor een beperkte tijd een betaald account? Ook niet om de API uit te proberen?

    Mijn ervaring met webrecorder was dat het heel veel handwerk was. De automatische functies werkte (4 jaar geleden) erg onbetrouwbaar. Hoe veel tijd zijn jullie er aan kwijt geweest?

    Groeten

    Mark

    Regionaal Archief Alkmaar

    Mark Alphenaar
  • @eijkelsusannevanden, de nadelen begrijp ik. Ik was vooral benieuwd of die data er nog wel was. Ook al krijg je niet de juiste presentatie, het is wel prettig om de tweets zelf te hebben :-) En ik ben ook wel benieuwd of het mogelijk is om de verkorte links "uit te pakken", zodat je in ieder geval de originele link hebt (voordat de doorverwijzing vanuit de verkorte link een keer vervalt).

    @markalphenaar ik vermoed dat het niet om het blauwe vinkje gaat maar om een abonnement op de API zelf. Dat is tenminste wat ik me herinner van de actie van de Library of Congress, die moesten betalen om 'the full firehose' te kunnen gebruiken :-)

    Chido Houbraken
  • Aangepast op 19 juli

    Hartelijk dank voor jullie reacties @chido, @twanmars1 en @markalphenaar! Ik moet eerlijk bekennen dat ik ten tijden van dit onderzoek nog niet werkzaam was bij het NA en dat ik dus ook niet met zekerheid kan zeggen welke keuzes zijn gemaakt en waarom.

    Wat ik in bovenstaande toelicht zijn de algemene opties hoe je het aan kan pakken. Het klopt inderdaad dat ik doel op de betaalde toegang tot de API zelf (en niet het blauwe vinkje), en daar is niet voor gekozen. Uit eerdere ervaring weet ik dat het pionieren is geweest en een tijdrovend proces kan zijn om materiaal binnen te halen. Ondanks de ‘automatische pilot’ van WebRecorder is onze ervaring ook geweest dat er nog veel handwerk nodig is, om tot een volledig mogelijk archief te komen. Ik heb bijvoorbeeld ook archieven gezien waarbij er slechts screenshots van de post zijn gemaakt; ook in het kader van iets is beter dan niets.

    De volledige links zitten wel in het archief verstopt. En het is ook zeker mogelijk om daar iets mee te doen. Meer daarover kun je in een andere blog lezen. Het vergt wel extra handelingen die weer gedocumenteerd zouden moeten worden en met oog op de handreiking zijn we ook opzoek naar een manier die voor de meesten zo uitvoerbaar mogelijk is.

    De optie om een WARC te maken is inderdaad wel mogelijk, maar was geen onderdeel van dit onderzoek geloof ik. Wel is er dan aandacht nodig voor kwaliteitscontroles, om de inhoud te controleren. Met behulp van Wget is het ook mogelijk om HTML binnen te halen en de output in een WARC te krijgen. Die laatste optie is een casus geweest van een onderzoek van een collega van mij. Helaas is dat niet meer via het KIA platform te vinden, maar als het goed is werkt deze link nog naar het onderzoek.

    Eijkel Susanne van den
  • Dankjewel Susanne,

    Wget ken ik inderdaad en dat is een bruikbare harvesting tool. Je hebt inmiddels ook een breder framework voor harvesting en replay in de vorm van pywb (ook geautomatiseerd), maar dat vereist wat meer technische ervaring en kennis.

    Warcit is een command tool die WARC-vorming van lokale html en object files mogelijk maakt. Ook daarbij kun je natuurlijk twijfelen aan de kwaliteit.
    GitHub - webrecorder/warcit: Convert Directories, Files and ZIP Files to Web Archives (WARC)

    Toch is kwaliteit vaak (nog) een luxe en dien je pragmatiek toe te passen, zeker nu er nog geen handreiking is. Daarnaast zou ik ook willen pleiten voor een zo generiek mogelijke aanpak, omdat lang niet alle archiefinstellingen/archiefvormers de luxe zullen hebben van een technische collega/afdeling. Het bij elkaar puzzelen van alle lesse contents, om ze vervolgens weer op een eenvoudige manier toegankelijk te maken, is dan vaak niet mogelijk. Een kwalitatief minder goede, maar wel werkende WARC-file zal dan worden geprefereerd vermoed ik?

    Twan Mars

Trefwoorden