archiveren website en archiveren website

  • jul 2017
  • Verwijderde gebruiker
  • ·
  • Aangepast 27 jun
  • 9
  • 25
Verwijderde gebruiker
Particuliere Websites en SoMe
  • Erik Saaman
  • Wouter Brunner

In Od aandacht voor webarchivering: 'Burgers en rechtspersonen kunnen rechten ontlenen aan de informatie op een website (...).' Dat klopt. Dus moet je er als overheid voor zorgen dat je over die informatie beschikt, moet je kunnen aantonen of en op welk moment informatie op een website heeft gestaan. Het vastleggen van de website is een mogelijkheid om daaraan tegemoet te komen. En je legt de website of de betreffende pagina vast voor zo lang dit nuttig en nodig is, toch?In veel publicaties over het archiveren van websites lijkt het erop dat websites in het geheel, tot in den eeuwigheid, bewaard moeten blijven. Dat lijkt me ondoenlijk.

Reacties

9 reacties, meest recent: 24 juli 2017
  • Lees ondoenlijk ook als onzinnig :-) De hoeveelheid aan TB's die er mee gemoeid zijn en daarbij behorende kosten, bijvoorbeeld. Misschien zijn de kosten van webarchivering bij / via Pagefreezer, Capsis e.d. momenteel nog te overzien. Maar de bedoeling is -neem ik aan- opname in een e-depot. Wat kost een TB digitaal archief per jaar? En hoeveel TB webarchief bouw je op? Ik meen dat vanuit gemeente Middelburg een slordige 180TB werd genoemd mbt ca. 5 jaar webarchivering (x 1500,-?). De hoeveelheid in het algemeen: wat is de toegevoegde waarde in een collectie van een gigantische hoeveelheid webpagina's? Veel gemeentelijke websites komen van een handjevol leveranciers en zijn grotendeels gelijk in opzet en gebruiksgemak, met heel veel links naar links naar andere overheidswebsites (bekendmakingen, ruimtelijkeplannen e.d.).

    Zie ook artikel in Od waarin wordt opgemerkt dat de Library of Congres is gestopt met archiveren van Twitterberichten omdat het te tijdrovend en te kostbaar bleek.

    Verwijderde gebruiker
  • Beste Jack,

    Over de zinnigheid doe ik geen uitspraken. Wel wil ik twee argumenten aanvoeren vanuit de techniek waarvan ik denk dat het belangrijk is dat ze in het beleid worden opgenomen.

    - de leveranciers hebben de mogelijkheid webarchieven op te slaan/uit te leveren in WARC formaat. Ik lees nog weinig over de acceptatie daarvan, terwijl het een internationaal geaccepteerd formaat is.

    - bij webarchivering worden harvesting technieken toegepast waarbij alleen wijzigingen worden opgenomen zodat de groei "beperkt"blijft. 

    groet,

    John

    Verwijderde gebruiker
  • De opslaggrootte van het een en ander hangt ook samen met je selectiebeleid. In de oude gemeentelijke selectielijst werd de mogelijkheid gelaten om de website onder te verdelen in een deel met 'historisch belang' en een overig deel. De nieuwe lijst laat deze mogelijkheid niet (expliciet).

    Naar mijn mening heeft een behoorlijk deel van de informatie die voor de recht- en bewijszoekende burger van belang is, geen eeuwigheidswaarde, terwijl juist die informatie de reden is voor een hoge opslagfrequentie van de website.

    Wellicht is het dus een idee om tbv het historisch belang na een x-aantal jaar een deel van het webarchief te vernietigen en bijvoorbeeld alleen de websites per de eerste dag van een kwartaal op te slaan?

    Wouter Brunner
  • @JohnJansen, kun je een idee geven van bijv. een overheidsorganisatie waarvan een jaar of 5 webarchief is opgebouwd? Voor de volledigheid zou ik het door mij genoemde getal kunnen verifiëren :-)

    Het is zeer goed mogelijk dat het aantal TB varieert, o.a. afhankelijk van de manier waarop webarchivering plaatsvindt. En hopelijk wordt dat in de Handreiking ook meegenomen.

    Verwijderde gebruiker
  • Beste Jack, dat laat zich zo niet in zijn algemeenheid zeggen. Maar van de mij bekende gemeentelijke websites zijn er enkele die nu de 2TB zijn overschreden. Als je dag in dag uit standaard een crawl maakt van een website dan loopt het aardig op maar de 180 TB die jij noemt kan ik niet onderschrijven.

    Ik onderschrijf dat het goed is eea in een handreiking op te nemen, wellicht ook wat eisen mbt retentieschema's...

    Verwijderde gebruiker
  • In de start van de discussie heb ik de plank misgeslagen mbt het vermeend aantal TB's aan opgebouwd webarchief. Het gaat slechts om een goede of schamele 300GB.

    Maakt dat discussie over hoeveelheid te beheren webarchief overbodig? Dat denk ik niet. Zeker niet gezien de rol en functie die een website en evt. archivering van sociale media vervult. Kleiner zal die rol en functie niet direct worden.

    Verwijderde gebruiker
  • Het aantal GB, TB en PB (https://nl.wikipedia.org/wiki/Petabyte) vind ik niet van belang:

    Wat ik wel van belang vind is:

    Via onze leverancier testen we de volgende mogelijkheid https://www.pagefreezer.nl/openrecords/houten

    Oplossing evenwoorden

    Voorbeeld zoekwoorden windmolens, windturbines en windpark worden in bestuurlijke documenten door elkaar heen gebruikt. Je krijgt elke keer een ander resultaat.

    Wellicht is een oplossing dat deze 3 zoekwoorden als evenwoorden kunnen worden gebruikt in een (aparte) of onze eigen zoekmachine.

    Wellicht is een oplossing om voor de websites van Houten gebruik te maken van een centraal metadata beheersysteem (DSP/ZTC) die we ook intern gebruiken?

    Verwijderde gebruiker
  • Doel en kosten lopen in deze discussie volgens mij door elkaar. Als je wilt bepalen welke en hoe lang webpagina's bewaard moeten worden, dan moet je beginnen bij de redenen daarvoor. En niet bij de benodigde opslagruimte en andere technische belemmeringen. Die kunnen slechts in tweede instantie een overweging van praktische aard zijn (wat niet kan, dat kan natuurlijk niet).

    Over de (on)zinnigheid van het bewaren van webpagina's kun je geen algemene uitspraken doen. Dat hangt af van de inhoud van de pagina's en de belangen van de mensen die mogelijk ooit de pagina's willen inzien. Dat is de reden waarom overheidsorganisaties selectielijsten moeten maken. 

    Erik Saaman

Trefwoorden