Update

  • mei 2020
  • Mark Alphenaar
  • ·
  • Aangepast 27 jun
  • 5
  • 88
Mark Alphenaar
Particuliere Websites en SoMe
  • KIA Community Manager
  • Violet
  • Willem Vanneste
  • Wouter Brunner
  • Mirjam Schaap

Wie zijn er al bezig met de tool 'Webrecorder'? Lukt dat een beetje en wat nemen jullie op?

Bij het Regionaal Archief Alkmaar zijn we nu iets meer dan een maand bezig. We hebben ondertussen de regionale nieuwswebsite Alkmaar Centraal vanaf 1 maart binnengehaald (met toestemming) en de Facebookgroep 'Je bent Alkmaarder als' met 34.000 leden (ook met toestemming van de beheerder). Beide sites geven een aardig journalistiek en maatschappelijk beeld van een deel van ons werkgebied.
De WARC bestanden die we vanuit Webrecorder downloaden gaat direct ons e-depot in.

Webrecorder is niet de meeste ideale tool, maar wel de meest bruikbare voor instellingen die niet uitgebreide technische middelen en kennis hebben.

Groeten
Mark

Reacties

5 reacties, meest recent: 8 mei 2020
  • Hoi Mark,

    Jullie zijn echt goed bezig! Mag ik je 3 vragen stellen?

    1. Waarom gebruik je Webrecorder voor het harvesten van een website, en niet bijv. HTTrack?
    2. Je had al eerder een bericht geplaatst over het downloaden van FB groepen vanaf het eigen account van de groepsbeheerder: dat kan dus niet? Of is er een andere reden dat je voor Webrecorder kiest?
    3. Hoe haal je met Webrecorder de berichten vanaf een bepaalde datum binnen? Is dat zo simpel als handmatig opnemen en niet verder scrollen of zie ik iets over het hoofd? Vul je die opname dan periodiek aan? Ik zit ivm corona behalve op alle toestemmingen (dat is nogal wat werk...) ook te wachten op 'het goede moment', om dubbel werk zoveel mogelijk te voorkomen.

    Wij hebben tot nu toe een (1) webrecorder opname in onze collectie opgenomen, dat was ivm de hotspot overlijden burgemeester Eberhard van der Laan. Toen heb ik als aanvulling op mijn twitterdataset (geharvest met de Twitter Search/Streaming API) ook een opname gemaakt van de aankondiging van de gemeente van het overlijden van Van der Laan met alle reacties daarop ('conversaties'/interactie en draadjes zijn namelijk niet te harvesten via de API).

    Groet,
    Mirjam

    Mirjam Schaap
  • Hoi Mirjam,
    Ik was niet zo bekend met HTTrack. Het lijkt er wat minder gebruiksvriendelijk uit dan Webrecorder. Waar ik naar zocht is een snelle en duidelijke tool. Zonder te veel in te stellen, makkelijk vastleggen en direct controle (alleen coronaberichten). Webrecorder lijkt dat te hebben gezien het handwerk tijdens het recorden. HTTrack zal ongetwijfeld ook goed werken (in de goede handen), ik heb het nog niet geprobeerd. Met webrecorder heb ik nu wel één tool voor al mijn werk.

    Inderdaad, de optie 'downloaden' van je Facebookpagina, zoals je als privépersoon hebt, is er dus niet in een besloten Facebookgroep. Ik weet niet hoe dat zit met een open groep, maar ik heb het vermoeden dat groepen in het algemeen in Facebook die optie niet hebben. Webrecorder geeft mij directe controle tijdens het scrollen door de groep om de comments bij een bericht te openen. Facebook laat er standaard maar een paar zien. Je moet alles openklappen zodat Webrecorder ze meeneemt.

    Wat ik doe is om de paar dagen de dagen ervoor op te nemen. Meestal twee keer per week. Op maandag stuur ik dan de WARC files naar een collega die ze in het e-depot zet. Het vereist wel wat discipline, maar zo werkt het (tot nu toe). En je Webrecorder sessies worden dan niet snel meer dan 100mb (de limiet van de online Webrecorder). Ik merk sowieso dat als een sessie groter dan 60mb begint te worden Webrecorder wat trager lijkt. De offline versie van Webrecorder werkt niet bij mij helaas.
    Langer dan een paar dagen wachten met een sessie zorgt wel eens voor problemen. Zoals het afgelopen weekend en 4/5 mei. Er waren toen zo veel berichten en reacties dat Webrecorder in zijn voegen kraakte ;-)

    Ik moet zeggen dat ik voor het snelle 'gemak' ga bij deze. Uit jouw eerdere verhalen weet ik dat er andere tools zijn voor de verschillende kanalen. We hebben nu gekozen voor deze aanpak en ik deel het werk ook met twee andere collega's die nog wat andere sites doen. Ook is onze kennis en tijd beperkt in deze.

    Maar goed, door ervaringen delen komen we hopelijk allemaal wat verder. Al doende leert men :-)

    Groeten
    Mark

    Mark Alphenaar
  • Hallo Mark,

    ik ben ook bezig met Webrecorder. Ook bij mij werkte de (Windows-)desktopversie in eerste instantie niet, maar dat is echt apparaat-afhankelijk, dus als je de kans hebt om het ook op andere computers te proberen dan zou ik dat zeker niet nalaten. De desktopversie werkt naar mijn mening in ieder geval een stuk fijner dan de webversie.
    Daarmee is niet gezegd dat de applicatie moeiteloos een site of account binnenhaalt, ook niet met de autopilot-functie. Met name het ontbreken van een mogelijkheid om te zien wat er wel en (vooral) wat er niet automatisch is binnengehaald wordt node gemist. Eigenlijk moet je nu je archief helemaal nalopen en dan met de patch-functie de missende onderdelen aan je collectie toevoegen.

    Dat gezegd hebbende: de tool is gratis, simpel in het gebruik en kan toch flink wat. Als onderdeel van een breder pakket aan tooling heeft het dus zeker zijn meerwaarde.

    Groet,
    Wouter

    Wouter Brunner
  • Dag Mark

    Bij het Universiteitsarchief van Antwerpen gebruiken we zoveel mogelijk HTTrack. Deze doorloopt geautomatiseerd een site en levert HTML-output die ik verkies boven WARC-files. Voor sommige sites en sociale media die ik met HTTrack moeilijk te pakken krijg gebruik ik de desktopversie van Webrecorder. De autopilot-functie lijkt redelijk te werken voor FB-pagina's maar ook weer niet altijd. Ook bij websites waar ook HTTrack het moeilijk mee heeft lukt ook de autopilot-functie van Webrecoder vaak niet. Meestal gaat het over sites gemaakt met CMS-systemen die zich niet gemakkelijk laten vangen. Een alternatieve aanpak voor Facebook aan beheerskant de gegevens via de archieffunctie opvragen en voor de look and feel met de SingleFile-extensie (beschikbaar voor Chrome en Firefox) een HTML-kopie te maken. Dat doe je door eerst feed manueel openzetten tot waar je hem wil capteren en deze dan via SingleFile opslaan. Je krijgt dan een HTML-bestand waarin foto's e.d. mee in de HTML is geïntegreerd. Mijn ex-collega's van het FelixArchief gebruiken bijvoorbeeld deze aanpak, zie https://felixarchief.antwerpen.be/archievenoverzicht/699227.
    Liberas, het voormalige Liberaal Archief, heeft recent nog een artikel geschreven over hoe zij het archiveren van Facebookpagina's aanpakken. Het staat op ons #ArchivesQuarantaineArchief-platform, zie https://archivesquarantainearchief.be/nl/2020/04/24/archiveren-van-facebook-liberas/. Zij gebruiken weer een andere aanpak.

    Hartelijke groet
    Willem

    Willem Vanneste
  • Hallo Willem,
    Ook bij jullie en Liberas weer interessant aanpakken. Iedereen weet dus blijkbaar een manier te vinden die past bij hun doelstellingen. Bij ons is het bijvoorbeeld belangrijk dat we de comments bij de Facebookberichten meenemen, daarom is de aanpak voor Liberas weer minder geschikt voor ons. Ons e-depot verlangt WARC-files dus moet ik daar voor gaan.
    Groeten
    Mark

    Mark Alphenaar

Trefwoorden