Dutch Prize Papers (Huygens ING-KNAW)

  • aug 2021
  • Milo van de Pol
  • ·
  • Aangepast 27 jun
  • 83
Milo van de Pol
Automatische Tekst Herkenning
  • Marijcke Schillings
  • Gerrit Bril

Blog ontleend aan Maritiem Portal.

Over de Engelse archiefcollectie Prize Papers, documenten die door Britse kapers in de periode 1652-1815 op vijandelijke schepen werden buitgemaakt, zijn op het Maritiem Portal meerdere berichten te vinden. Logisch, want haar internationale betekenis voor onderzoekers en geïnteresseerden op het terrein van bijvoorbeeld maritieme geschiedenis staat buiten kijf. Op het Portal is ook informatie te vinden over de website Dutch Prize Papers, die het Huygens ING (KNAW) twee jaren geleden lanceerde. 72.000 Scans van vooral Nederlandse documenten uit de zeventiende tot begin negentiende eeuw zijn vrij te raadplegen op https://prizepapers.huygens.knaw.nl/. Begin juli 2021 is een update doorgevoerd.

Onderzoeksproject
Ter herinnering: het eerste doel van het Huygens ING-project was een omvangrijke selectie (Nederlandse) documenten te laten digitaliseren en in een gestructureerde onderzoeksomgeving vrij beschikbaar te stellen. Subsidies van Bureau Metamorfoze en de Samenwerkende Maritieme Fondsen maakten dit mogelijk. De 87 inventarisnummers waaruit het zo diverse, unieke, niet-uitleenbare materiaal afkomstig is, zijn door het Huygens ING voorzien van enkele metadata als namen van schepen en kapiteins en een periodisering, meestal het jaar waarin het (Nederlandse) schip door een Engelse kaper werd genomen. Er kan dus gemakkelijk gezocht worden op inventarisnummers, jaartallen en namen van schepen en kapiteins. In het resultaatscherm verschijnen vervolgens de opgevraagde documenten. De website werd tijdens het eerste ‘Vlootschouw’-symposium in het Scheepvaartmuseum te Amsterdam (januari 2020) aan een breed publiek gepresenteerd.

Aldaar kwam ook het tweede doel aan de orde, te weten de gehele inhoud van de documenten zelf doorzoekbaar en geschikt voor interdisciplinair analytisch onderzoek te maken. Dat is een interessante uitdaging van belang. Drie tekstvormen vinden we in Dutch Prize Papers terug: gedrukte, handgeschreven en de hybride soort voorgedrukt-handgeschreven; denk respectievelijk aan een instructieboek, een journaal of brief en een vrachtbewijs. Bij de lancering van de website in 2019, werden zo mogelijk al bij elke scan automatisch gegenereerde transcripties aangeboden.

Automatische tekstherkenning
De automatische transcripties van gedrukte documenten (OCR) in Dutch Prize Papers zijn redelijk tot goed te noemen. Na de recente update is de kwaliteit van de OCR verbeterd; de lange S bijvoorbeeld, in gebruik tot in de negentiende eeuw, wordt nu correct herkend en niet langer voor de letter f aangezien.
Met schrift uit drie eeuwen zijn automatische transcripties van handgeschreven documenten (HTR) begrijpelijk veel minder goed. Ter verbetering van de HTR zijn we, in samenwerking met de afdelingen Digitale Infrastructuur en Digitaal Databeheer, een proef gestart met behulp van het programma Transkribus. In Transkribus wordt de computer getraind om handgeschreven documenten en oud drukwerk te leren lezen en om te zetten naar machineleesbaar schrift. Het is een internationaal veel gebruikt en toegankelijk programma. Ook het Huygens ING heeft meerdere projecten die met het programma werken en trainingsmateriaal aanleveren om automatische HTR-modellen te maken, zoals de Briefwisseling van Johan de Witt, Schepenregisters van ’s-Hertogenbosch, Resoluties van de Staten-Generaal en Globalise.

Werkwijze HTR-proef
We kregen toestemming van de archiefbeheerder te Londen om gedigitaliseerd materiaal in Transkribus te plaatsen. Hier maakten we vijftien mappen aan, onderscheiden naar eeuw en taal, bijvoorbeeld zeventiende-eeuws Nederlands, achttiende-eeuws Nederlands, negentiende-eeuws Frans en random. De onderscheiden mappen werden daarna met 1.000 geselecteerde scans gevuld, een geschikt aantal voor een goede steekproef. De 1.000 scans splitsten we in een groep ‘hoofdzakelijk handmatig’ (100 scans) en een groep ‘vooral automatisch’ (900 scans). Op moment van schrijven van dit blog zijn we bezig 100 scans tot de status van zogeheten ‘Ground Truth’ te brengen. ‘Ground Truth’ ligt aan de basis van een HTR model, is een zo correct mogelijke kopie in machineschrift van de originele tekst en omvat meerdere handelingen.

Eerst dient een tekst van regio’s en lijnen te worden voorzien, de zogeheten ‘layout-analysis’. Ze zijn belangrijke referentiepunten voor het transcriberen later. Aangezien in Prize Papers-documenten de tekstindeling (denk aan de plaats van een datum, aanhef, paragraaf) zelden gelijk is en tekstregels vaker scheef dan recht en aaneengesloten lopen, is de ‘layout-analysis’ vooral een handmatige klus. Die conclusie trokken we ook uit een kleine test toen we de lay-outs van de 100 scans als trainingsmateriaal voor een model gebruikten en dat model op enkele onbewerkte scans uit de 900-set toepasten. De resultaten waren een beetje teleurstellend: teveel en incomplete tekstregio’s alsook onjuiste tekstlijnen. Of automatische ‘layout-analysis’ in dit project mogelijk is, gaan we verder uitzoeken.

Op de geannoteerde en correct gemaakte lay-out volgt de stap van de transcriptie. In deze fase kunnen we voor de Prize Papers profiteren van openbare modellen via een creditssysteem in Transkribus. Er zijn inmiddels getrainde modellen voor meerdere talen en tijdsperioden beschikbaar. Voor zeventiende-eeuws Nederlands schrift is er bijvoorbeeld Republic_7, door het Huygens ING ontwikkeld; op negentiende-eeuws Nederlands schrift passen we met name IJsberg toe dat vanuit het Nationaal Archief is ontwikkeld. Voor de achttiende eeuw is er Dutch Mountains (Stadsarchief Amsterdam). De – dus automatische – transcripties controleren, corrigeren en annoteren we volgens richtlijnen.

Zodra alle 100 scans de ‘Ground Truth’-status hebben gekregen, is er voldoende materiaal om een eerste Dutch Prize Papers HTR-trainingsmodel te laten ontwikkelen. We zijn heel benieuwd naar testresultaten voor de set van 900 scans. Hoe zijn de foutmarges op letterniveau, is het model algemeen geschikt of juist alleen voor een bepaald documenttype of een bepaalde groep van teksten? U hoort ervan!

Biografie
Marijcke Schillings is onderzoeker Geschiedenis bij het Huygens ING – KNAW. Zij coördineert Dutch Prize Papers sinds de start van het project in 2016 (https://www.huygens.knaw.nl/projecten/dutch-prize-papers/)

Trefwoorden