Totaal Digitaal Doorzoekbaar

  • jan 2024
  • Tessel Dekker
  • ·
  • Aangepast 27 jun
  • 35
Tessel Dekker
KIA Community
  • Rachel Westerveld

Door verbetering van Handwritten Text Recognition (HTR) kunnen we nu dwars door de inhoud van gedigitaliseerde archiefstukken zoeken. De scans zijn daarbij niet meer het hoofdproduct, maar dienen als grondstof om de geschiedenis doorzoekbaar te maken. Grootschalig data-onderzoek wordt daardoor mogelijk, ook voor vraagstukken van nu.

Het archief, het papieren geheugen van de stad, kunnen we beschouwen als een enorme historische database met informatie over de stad in soms meer en soms minder gestructureerde vorm. Zeven eeuwen aan registers, aktes, brieven, missieven…

Onbekend maakt onbemind

In 2023 is bijna 20 procent van de papieren archieven van Stadsarchief Amsterdam gescand. Bij het selecteren van archieven die voor digitalisering in aanmerking komen geldt over het algemeen het uitgangspunt: we scannen waar vraag naar is. Dit leiden we af uit gebruiksstatistiek van de website, aanvragen voor scanning on demand en voor inzage in de studiezaal.

Toch wil het niet zeggen dat als er niet naar een stuk gevraagd of gezocht wordt, er geen belangstelling voor is. Het kan bijvoorbeeld zo zijn dat een onderzoeker het stuk niet heeft kunnen vinden door een te globale of ouderwetse beschrijving ervan, maar dat diegene wel degelijk in de inhoud van het archiefstuk geïnteresseerd is. Soms weet je pas wat je wil als je weet wat er is.

Kortom: uit gebruikersstatistieken kunnen we niet per definitie concluderen welke stukken de informatie bevatten waar gebruikers naar op zoek zijn. Het digitaal doorzoekbaar maken van gedigitaliseerde archieven zou de populariteit en het gebruik van nog onbekende documenten daarom juist kunnen bevorderen.

Data-onderzoek

Twintig jaar geleden was de doelgroep van digitalisering vooral de klassieke (historische) onderzoeker. De online beschikbaarheid van gedigitaliseerde archieven heeft enorm bijgedragen aan het doen van onderzoek. De gang naar de studiezaal is amper meer nodig, en de bronnen kunnen makkelijk worden verspreid en hergebruikt.

Het nader toegankelijk maken van bronnen via handmatige indexering en later het realiseren van integrale doorzoekbaarheid via Handwritten Text Recognition maakt onderzoek door een nieuw type gebruiker mogelijk: de data-onderzoeker. Deze nieuwe focus gaat gelijk op met de wijze waarop het historisch wetenschappelijk onderzoek zich bij universiteiten ontwikkelt.

Kwantitatief onderzoek naar trends en de grote ontwikkelingen in de samenleving zijn steeds meer in de belangstelling gekomen. En die zijn te herleiden via analyses op grote datasets. Door de toename van het datagedreven onderzoek neemt daarmee ook de vraag om gedigitaliseerde en doorzoekbare documenten toe. Voor dit type onderzoek zijn geen losse stukken nodig, maar gaat het om specifieke informatie uit grote series documenten.

Als het niet doorzoekbaar is bestaat het niet

Door de snelle ontwikkeling van de digitale samenleving is digitale aanwezigheid een vanzelfsprekendheid geworden. Als het niet digitaal is dan bestaat het niet. Inmiddels zijn we bijna twintig jaar aan het digitaliseren en kunnen we stellen dat er een nieuwe dimensie aan deze stelling kan worden toegevoegd: als het niet doorzoekbaar is bestaat het niet.

Zoals we in de vorige blog beschreven, betekent dit dat het doel van digitaliseren van archiefinstellingen niet meer het leveren van een plaatje is, maar het plaatje de grondstof wordt voor het doorzoekbaar maken van de inhoud. Zo is er Delpher voor publicaties, maar dat is beperkt tot gedrukt materiaal. Archieven krijgen te maken met een enorme diversiteit in handschriften in documenten die in verschillende eeuwen zijn geschreven. Het is een mooie uitdaging om ook die geschiedenis doorzoekbaar te maken.

Het bekendste voorbeeld bij het Stadsarchief van de verschuiving van bron- naar grootschalig dataonderzoek zijn de Notarieel Archieven. Door het scannen en doorzoekbaar maken van de notariële aktes wordt het mogelijk om via extractie – het gericht ophalen van informatie uit documenten – van bijvoorbeeld namen en locaties het cultureel leven in Amsterdam in de zeventiende eeuw te reconstrueren. Of bijvoorbeeld om zichtbaar te maken waar opvarenden van de VOC vandaan kwamen.

Data uit het verleden voor vraagstukken van nu

Op het moment dat niet alleen historische documenten als scans, maar informatie daarin als data beschikbaar komen verschuift niet alleen het type onderzoek, maar ook het potentieel onderzoeksterrein. De archieven zitten vol met bruikbare data voor het reconstrueren van zaken of creatie van modellen. Soms in voor de hand liggende bronnen, maar ook in minder bekende archieven die pas door de doorzoekbaarheid komen boven drijven.

Voorbeelden uit de praktijk zijn de peilboekjes met waterstanden die door het KNMI toegepast bij het maken van klimaatmodellen en een onderzoek van de Radbouduniversiteit naar infectieziektes via geregistreerde doodsoorzaken in ziekenhuisregisters. Ook voor het herstel van bruggen en kademuren in Amsterdam kunnen zo relevante tekeningen uit het archief van Publieke Werken gevonden worden.

De mogelijkheden – hoewel op dit moment nog in grote mate afhankelijk van menselijke interpretatie – zijn onuitputtelijk, maar stellen wel twee voorwaarden: de documenten zijn gescand, en de inhoud is doorzoekbaar. Met de razendsnelle ontwikkeling van Handwritten Text Recognition wordt die ambitie werkelijkheid.

Interieur Gemeentelijk Verzorgingshuis voor Ouden van Dagen; bejaarde vrouw leest een boek met een vergrootglas. Bekijk de foto op de Beeldbank.

Trefwoorden