Databasearchivering naast Crawling

Verwijderde gebruiker
1504593720

Als een database enkel een onderdeel vormt van je CMS en alle data via de pagina's van de site gearchiveerd worden dan zou ik de database niet apart archiveren.

Als het gaat om niet-openbare informatie, ik neem dan aan een intranet, dan zou dat deel door webarchivering van het intranet ook goed bewaard kunnen worden.

Het wordt lastiger als sommige data uit de database alleen via zoekformulieren beschikbaar is. Soms kan je forceren dat die data ook met je webarchivering mee komt (ik denk aan een sitemap of vergelijkbare technieken). Soms lukt dat niet om technische redenen (alleen 'POST' mogelijk) of omdat de database eenvoudigweg te omvangrijk is. Als dat speelt dan ben je waarschijnlijk ook geïnteresseerd in het bewaren van de database al op zich, en dus niet enkel omdat die 'toevallig' onderdeel uitmaakte van de website.

Groet, René

Wouter Brunner
1504594500

Met 'niet openbare informatie' doel ik eigenlijk vooral op het gedeelte van de website dat achter een inlog zit.

Het gaat - voor zover mij bekend - inderdaad alleen om de database die bij het CMS hoort.

Verwijderde gebruiker
1504595880

Als het gaat om data 'achter een inlog' dan zou er mogelijk voor gezorgd kunnen worden dat dit inloggen voor de archiveersoftware niet nodig is. De crawler heritrix kan in sommige gevallen ook zelf inloggen (bij gebruik van zgn. 'basic authentication').

Het verhaal wordt natuurlijk wel erg lastig als de content die op een pagina getoond wordt afhankelijk is van wie er ingelogd is. Als het belangrijk is om ook die pagina's te archiveren dan kan er gedacht worden aan een oplossing als https://mementoweb.github.io/SiteStory/ (een zeer elegante en interessante aanpak voor archiefvormers, wmb).

Wouter Brunner
1504603440

het gaat inderdaad om een gepersonaliseerde inlog.

Overigens, als je dit dus wel zou kunnen crawlen, dan heb je vervolgens het probleem dat een deel van je webarchief openbaar is en een deel niet. Ik weet niet of dat beheerstechnisch te doen is.

Deel

Help

Databasearchivering naast Crawling

Reacties

Trefwoorden

Deel

Help

Databasearchivering naast Crawling

Reacties

Trefwoorden

Verken

archiveren website en archiveren website

Ervaringen met het matchen van plaatsnamen in GeoNames

Nieuw kennisdossier over webarchivering door DEN