Get ready: World Digital Preservation Day 2024 is approaching!
Bingo, video clips, hackathons, global events and institutions opening their doors showcasing what dig...
Archiveren van sociale media is al langer onderwerp van discussie. Niet zozeer waarom het gearchiveerd moet worden, maar wel wat je precies binnenhaalt en hoe je dat doet. Dat hangt natuurlijk ook af van met welk doel en voor wie je de materie archiveert. Het Nationaal Archief (NA) heeft het eigen Twitter (inmiddels bekend als ‘X’) account binnengehaald, met het oog op archiveren van overheidsinformatie op sociale media. Er zijn verschillende manieren om sociale media te archiveren, op te slaan en beschikbaar te stellen. In deze blog lees je over één van deze manieren. Wil jij meedenken over wat de beste manier is?
Het NA had twee accounts op Twitter, een zakelijk - en een publieksaccount. Sinds 1 juli 2021 verschijnen zowel zakelijke als publieke berichten vanaf één account. Dit was voorheen het zakelijke account van het NA. Het publieksaccount moest dus gearchiveerd worden en daar hebben we intern een project voor opgezet. Met de kennis van nu, zou je idealiter al iets ingericht hebben voor archivering van sociale media. Dat was echter niet het geval, waardoor het archiveren achteraf gebeurde. Dat bepaalde voor een deel de aanpak en de scope van ons project.
Het is belangrijk om goed te bedenken wat je precies wil veiligstellen. Dit helpt je namelijk kiezen met een methode hoe je dat gaat doen. Gaat het enkel om de posts die vanaf een bepaald account zijn gemaakt? Of ook om de interactie die op sociale media heeft plaatsgevonden? Daarmee bedoelen we bijvoorbeeld de mogelijkheid om posts te liken, reposten, of erop te reageren. Welke oplossing we ook zouden kiezen, we hadden één belangrijk criterium. We wilden namelijk voldoen aan de eisen van duurzame toegankelijkheid.
Binnen het NA is een onderzoek geweest naar de mogelijkheden om sociale media te archiveren. Er zijn verschillende tools uitgeprobeerd en er zijn een aantal eisen geformuleerd. Zo moest de interactie bewaard blijven. Ook vonden we het belangrijk dat de weergave zoals het destijds op het web gepresenteerd was (inhoud, vorm en structuur), behouden bleef. De persoonlijke berichten die verstuurd kunnen worden via sociale media, zagen we niet als onderdeel van wat we wilden archiveren. Aangezien we wisten dat één van de NA Twitter accounts opgeheven zou worden, zijn we begonnen met het archiveren van dat account. Andere sociale media platformen en accounts waren dus buiten scope van het project.
Toen we begonnen met het project, kon het binnenhalen van Twitter op grofweg drie manieren.
Helaas was het niet mogelijk om verder terug te scrollen in het account dan 25 januari 2018. Bij een onbetaald Twitter account mag je namelijk een maximaal aantal tweets per dag inzien, waardoor de tweets van 2012 tot 2018 niet beschikbaar waren en dus ook niet gearchiveerd konden worden met behulp van WebRecorder. Dat was wel mogelijk voor tweets tussen 2018 en 2022. Het archief kon via de browser worden ingezien, maar het is ook mogelijk om een export op te slaan. Bijvoorbeeld in het WARC-formaat. Op het eerste gezicht zijn we tevreden over de methode, want de “Look and Feel” van het platform die we belangrijk vinden, is inderdaad behouden gebleven. Je ziet bijvoorbeeld niet alleen de (re)posts die vanaf het NA account zijn gepubliceerd, maar ook het aantal likes, reposts en commentaren.
Naast het nadeel dat we tweets van voor 2018 niet konden archiveren, zagen we ook verschillen tussen het live web en de gearchiveerde tweets. Het aantal likes kwam bijvoorbeeld niet overeen met de live (re)posts en sommigen afbeeldingen waren niet gearchiveerd. Hieronder in het screenshot is bijvoorbeeld te zien dat de repost van het NA wel de link pointer.kro-ncrv.nl bevat (rechts), maar niet de afbeelding die wel bij de live post te zien is (links).
Screenshot van live repost door NA (links) waar de afbeelding bij de link te zien is en rechts de gearchiveerde repost zonder afbeelding.
Hoe nu verder? De ervaringen die we hebben opgedaan, nemen we mee in de handreiking over sociale media archivering die we als NA samen met collega-experts uit het veld ontwikkelen. Deze handreiking gaat bestaan uit vijf modules, waarin onder andere wordt ingegaan op het juridisch kader en de criteria en technieken om sociale media binnen te halen. Dit kennisproduct bouwt onder andere voort op het project sociale media archivering van het Rijksprogramma voor Duurzaam Digitale Informatiehuishouding (RDDI), dat eind 2023 is afgerond. Met behulp van een redactiegroep zijn er al drie modules geschreven, die na de zomer op de website van het NA worden gepubliceerd. Deze zomer wordt gewerkt aan technieken en praktijkvoorbeelden. Deze handreiking zal breder zijn dan het interne onderzoek dat NA heeft uitgevoerd, en zich dus niet alleen richten op Twitter (X), maar ook op platformen zoals Facebook en LinkedIn.
Ben jij al bezig met sociale media archivering? En heb je praktijkvoorbeelden van hoe het wel of juist helemaal niet moet? Dan komen we graag met je in contact! Laat hieronder een reactie achter, of mail mij via: susanne.vandeneijkel@nationaalarchief.nl. Ook als je vragen hebt of meer wilt weten over het onderwerp hoor ik graag van je.
Reacties
Ik ben wel benieuwd: als je methode 1 gebruikt, krijg je dan wel het archief van 2012-2018?
Bedankt @chido, voor je reactie! Het klopt dat je dan die data wel hebt (je kan immers je volledige account downloaden), maar zoals ik schreef kent dat nadelen. Daarnaast is de weergave niet authentiek. Bijvoorbeeld bij retweets zie je alleen de reactie van het account, maar niet de originele post meer waar je op gereageerd hebt. Er is wel een link naar die post, maar die verwijst naar het live web.
Dat zie je bijvoorbeeld in onderstaande screenshots. De eerste afbeelding toont de retweet op het live web, de tweede is de retweet uit het archief.
Hoi Susunne, interessant verhaal en opvallend weinig veranderd sinds ik zo'n ongeveer hetzelfde proces ben doorgelopen een paar jaar geleden toen wij tijdens corona social media wilde archiveren.
In punt 2 haal je de betaalde variant aan waarbij de API nog wel zou werken. Ik begrijp dat jullie geen betaald blauw vinkje hadden voor dat oude account? Voor jullie huidige account ook niet zie ik. Een bewuste keuze?
Als jullie een betaald account hadden genomen, dan was er dus wel in webrecorder verder terug te scrollen? Wilde jullie niet voor een beperkte tijd een betaald account? Ook niet om de API uit te proberen?
Mijn ervaring met webrecorder was dat het heel veel handwerk was. De automatische functies werkte (4 jaar geleden) erg onbetrouwbaar. Hoe veel tijd zijn jullie er aan kwijt geweest?
Groeten
Mark
Regionaal Archief Alkmaar
Aangepast op 16 juli 2024
Is de optie onderzocht om van optie 1 een warc te maken middels deze software: GitHub - webrecorder/warcit: Convert Directories, Files and ZIP Files to Web Archives (WARC) ?
Wellicht is dat met oog op preservering en presentatie het waard om naar te kijken, omdat je hiermee in ieder geval de losse contents kunt samenvoegen tot een WARC file geschikt voor preservering en toegang.
Is mij enkele tijd terug niet gelukt door gebrek aan technische kennis..
@eijkelsusannevanden, de nadelen begrijp ik. Ik was vooral benieuwd of die data er nog wel was. Ook al krijg je niet de juiste presentatie, het is wel prettig om de tweets zelf te hebben :-) En ik ben ook wel benieuwd of het mogelijk is om de verkorte links "uit te pakken", zodat je in ieder geval de originele link hebt (voordat de doorverwijzing vanuit de verkorte link een keer vervalt).
@markalphenaar ik vermoed dat het niet om het blauwe vinkje gaat maar om een abonnement op de API zelf. Dat is tenminste wat ik me herinner van de actie van de Library of Congress, die moesten betalen om 'the full firehose' te kunnen gebruiken :-)
Aangepast op 19 juli 2024
Hartelijk dank voor jullie reacties @chido, @twanmars1 en @markalphenaar! Ik moet eerlijk bekennen dat ik ten tijden van dit onderzoek nog niet werkzaam was bij het NA en dat ik dus ook niet met zekerheid kan zeggen welke keuzes zijn gemaakt en waarom.
Wat ik in bovenstaande toelicht zijn de algemene opties hoe je het aan kan pakken. Het klopt inderdaad dat ik doel op de betaalde toegang tot de API zelf (en niet het blauwe vinkje), en daar is niet voor gekozen. Uit eerdere ervaring weet ik dat het pionieren is geweest en een tijdrovend proces kan zijn om materiaal binnen te halen. Ondanks de ‘automatische pilot’ van WebRecorder is onze ervaring ook geweest dat er nog veel handwerk nodig is, om tot een volledig mogelijk archief te komen. Ik heb bijvoorbeeld ook archieven gezien waarbij er slechts screenshots van de post zijn gemaakt; ook in het kader van iets is beter dan niets.
De volledige links zitten wel in het archief verstopt. En het is ook zeker mogelijk om daar iets mee te doen. Meer daarover kun je in een andere blog lezen. Het vergt wel extra handelingen die weer gedocumenteerd zouden moeten worden en met oog op de handreiking zijn we ook opzoek naar een manier die voor de meesten zo uitvoerbaar mogelijk is.
De optie om een WARC te maken is inderdaad wel mogelijk, maar was geen onderdeel van dit onderzoek geloof ik. Wel is er dan aandacht nodig voor kwaliteitscontroles, om de inhoud te controleren. Met behulp van Wget is het ook mogelijk om HTML binnen te halen en de output in een WARC te krijgen. Die laatste optie is een casus geweest van een onderzoek van een collega van mij. Helaas is dat niet meer via het KIA platform te vinden, maar als het goed is werkt deze link nog naar het onderzoek.
Dankjewel Susanne,
Wget ken ik inderdaad en dat is een bruikbare harvesting tool. Je hebt inmiddels ook een breder framework voor harvesting en replay in de vorm van pywb (ook geautomatiseerd), maar dat vereist wat meer technische ervaring en kennis.
Warcit is een command tool die WARC-vorming van lokale html en object files mogelijk maakt. Ook daarbij kun je natuurlijk twijfelen aan de kwaliteit.
GitHub - webrecorder/warcit: Convert Directories, Files and ZIP Files to Web Archives (WARC)
Toch is kwaliteit vaak (nog) een luxe en dien je pragmatiek toe te passen, zeker nu er nog geen handreiking is. Daarnaast zou ik ook willen pleiten voor een zo generiek mogelijke aanpak, omdat lang niet alle archiefinstellingen/archiefvormers de luxe zullen hebben van een technische collega/afdeling. Het bij elkaar puzzelen van alle lesse contents, om ze vervolgens weer op een eenvoudige manier toegankelijk te maken, is dan vaak niet mogelijk. Een kwalitatief minder goede, maar wel werkende WARC-file zal dan worden geprefereerd vermoed ik?
Jazeker! Dat bedoelde ik ook met dat het voor de meesten zo uitvoerbaar mogelijk moet zijn. We gaan opzoek naar de meest gemakkelijke, haalbare en volledige manier en het is zeker de bedoeling om dat generiek te houden.
Beetje late reactie (ik zie deze post nu pas!), maar de problemen met verkorte links en ontbrekende full-size images bij optie 1 (binnenhalen van je eigen account door het te downloaden) zijn op zich vrij eenvoudig op te lossen door de boel na het downloaden door de twitter-archive-parser tool te halen:
https://github.com/timhutton/twitter-archive-parser
Eind 2022 heb ik hier ook eens een blogje aan gewijd; waarschijnlijk is een deel hiervan intussen achterhaald, maar voor geïnteresseerden is hier de link:
https://www.bitsgalore.org/2022/11/20/how-to-preserve-your-personal-twitter-archive
Direct messages zitten in het Twitterarchief allemaal in één bestandje, dus da's ook een fluitje van een cent om dat dan te verwijderen.
Desalniettemin een welkome reactie @johanvanderknijff! We zijn ons ervan bewust dat er oplossingen voor zijn en proberen ook zoveel mogelijk handvaten te bieden in de handreiking. Het is een lastige balans vinden tussen wat werkt en wat uitvoerbaar is. Dus dank voor deze praktische tips. Ook hebben we een aantal praktijkvoorbeelden opgenomen hoe andere organisaties omgaan met het archiveren van sociale media. En ik ken je blog(s); zeker een aanrader!