Een sociale webtoepassing voor archieven (en haar bezoekers)
Dit artikel geeft een introductie in het sociale web en introduceert een sociale webtoepassing speciaa...
Waarom is er geen Delpher voor archiefstukken? Oftewel, waarom kun je de vele OCR-bare scans die archieforganisaties reeds hebben niet full-text doorzoeken?
In het blogartikel Waarom is er geen Delpher voor archiefstukken? opper ik deze vraag, kijk ik naar de hoeveelheid bestanden die archieforganisaties reeds beschikbaar stellen (via archieven.nl) en presenteer ik de Proof of concept Scans doorzoeken op inhoud op Open Archieven met daarin scans van het Haags Gemeentearchief, het Utrechts Archief, het Noord-Hollands Archief, Archief Eemland, Regionaal archief Zutphen, het West Brabants Archief en het Nederlands Instituut voor Militaire Historie.
Reacties
Dag Bob, allereerst compliment voor je proof of concept, dat maakt het voor iedereen klip en klaar.
Zoals via Twitter gemeld, is het bij Archieven.nl al heel goed mogelijk om scans waarbij ocr is toegepast direct en volledig op inhoud te doorzoeken.
Als BHIC hebben wij enerzijds gedrukte documenten (zoals notulen van de provincie en gemeenten) laten scannen en ocr'en, waarna deze via ALTO XML doorzoekbaar zijn gemaakt. Je hoeft daarbij niet eerst naar het document te zoeken om daarna pas ín het document te kunnen zoeken. De zoekmachine zoekt vanaf het begin tegelijkertijd in beschrijvingen en inhoud van alle documenten. Ook hebben we anderzijds een archief wat al lang geleden gescand was, maar 'slechts' als pdf beschikbaar (een situatie die jij ook schetst) alsnog (door De Ree) om laten zetten naar ALTO XML, zodat het op dezelfde manier te doorzoeken is.
Archieven.nl biedt dus al een Delpher-manier van zoeken. Wat mist, zijn archiefdiensten die op grotere schaal minstens hun reeds gescande gedrukte documenten omzetten naar het doorzoekbare format (ocr/ALTO XML). Wat dat betreft mag De Ree wel wat meer reclame maken voor deze optie. Of archiefdiensten mogen zelf wat vaker aan de bel trekken, in ieder geval nu ze via jou de ogen zijn geopend.
Kortom, het 'nare' gevoel dat je heeft bekropen is nergens voor nodig. Maar er is vanuit archiefdiensten dus wel áctie nodig.
Ik kan me overigens ook voorstellen dat bewust geen op inhoud doorzoekbare documenten worden geplaatst. Bouwvergunningen worden door enkele archiefinstellingen digitaal aangeboden. Om privacy redenen kunnen deze niet op naam van de aanvrager worden gevonden terwijl die wel in de beschrijvende metadata zijn opgenomen. Als die vergunningsdocumenten op inhoud doorzoekbaar zouden zijn kun je alsnog op naam van de aanvrager zoeken. Er dient dus een risicoafweging te worden gemaakt voordat documenten op inhoud doorzoekbaar worden aangeboden op het internet.