Trainen van modellen voor automatische handschriftherkenning

  • dec 2019
  • Milo van de Pol
  • ·
  • Aangepast 28 jun
  • 27
Milo van de Pol
Automatische Tekst Herkenning

“De ijsberg zichtbaar maken”, het gezamenlijke digitaliseringsproject van het Nationaal Archief (NA) en het Noord-Hollands Archief (NHA) begint zijn vruchten af te werpen. Dit project is opgezet om de enorme berg handgeschreven archieven in het NA en NHA met behulp van transcriptiesofware Transkribus om te zetten in leesbare tekst. Dit programma is ontwikkeld als onderdeel van het door de Europese Unie gesubsidieerde project READ (Recognition and Enrichment of Archival Documents).
Binnen het project wordt gewerkt met twee soorten handschriften. Het NA levert t handschriften uit de zeventiende en achttiende eeuw, afkomstig uit een serie overgekomen brieven en papieren van de Verenigde Oost-Indische Compagnie (VOC), terwijl het NHA negentiende –eeuwse [NV1] handschriften uit het notariële archief van Haarlem in Transkribus inbrengt.

Het NA heeft voor het transcriberen van het VOC-archief een speciaal transcriptie-projectteam opgezet, dat inmiddels bijna 7500 archiefstukken heeft getranscribeerd met hulp van Transkribus. Met deze transcripties, die in de wandelgang “Ground Truths” (GT’s) worden genoemd, kan Transkribus worden getraind om automatisch handschriften te transcriberen. De trainingsdata die Transkribus hiervoor heeft aangemaakt worden “modellen” genoemd.
Inmiddels hebben het NA en het NHA goede modellen geproduceerd voor automatische handwritten text recognition (HTR). Deze modellen werken steeds beter. Het aantal fouten bij het dat Transkribus bij het automatisch transcriberen (de Character Error Rate: CER) maakt, daalt namelijk gestaag. Je kan de CER van een model onder andere bepalen op basis van een zogenaamde sampleset. Deze is samengesteld uit verschillende, representatieve delen uit één set transcripties. Voor het project IJsberg zijn bijvoorbeeld samplesets gemaakt van de GT’s van zowel de VOC als de notariële archieven. De CER op deze sets geeft een goede indicatie van de CER op de gehele dataset (zie tabel 1). De vroegste modellen waren overigens gebaseerd op transcripties die al beschikbaar waren in Transkribus. Deze voldeden echter niet aan de transcriptieconventie van het NA en het NHA . De handschriften weken daarnaast te sterk af van de dataset waarop de modellen zou worden toegepast. Bij tests bleek de CER van het eerste HTR-model dan ook met ruim 30% nogal hoog.

De eerste goede resultaten werden bereikt door het toevoegen van 200 GT’s van de VOC aan de trainingsset. Zo behaalde 'VOC M3' (VOC-model 3) al een CER van 12,23%. Het volgende model, 'VOC M4', behaalde met nog 200 extra GT’s een CER van 10,96%. Om de CER nog verder te laten dalen werd door het NA voor model '' VOC M5' besloten om kwaliteit te laten prevaleren boven kwantiteit en alleen nog HTR modellen te trainen op zelfgemaakte GT's. De CER zakte daarop naar 8,78%. Ter controle werd voor 'VOC M6' de set aangevuld met niet voor het project gemaakte GT’s, in totaal zo’n 3700 transcripties. De CER van dat model steeg daarop opmerkelijk genoeg naar 9,25%. 'VOC M7' daarentegen, had met 1000 GT's weer een CER van 8,69%.
Model 'VOC M5' werd bij wijze van test ook toegepast op de GT’s van het notariële archief uit het NHA. Daarbij haalde dit model een CER van 18,55%.

Voor het NHA-materiaal volgde een vergelijkbaar traject. 100 GT’s van het notariële archief werden getraind in Transkribus: 'Not. M1'. Deze had een CER van 17,71%. Aan het volgende model, 'Not. M2', werden nog eens 75 GT's toegevoegd. Hierop daalde de CER naar 14,18%.Een keerpunt vormde het samenvoegen van de trainingsets van NA en NHA (VOC M7 en Not. M2). Bij het testen bleek dat de CER voor zowel de VOC als het notariële archief te zijn gedaald. Op het VOC-materiaal was de CER nu 8,44% (een verbetering van 0,25%). Op het notariële materiaal was de CER 11,88% (een verbetering van 2,4%). Gemiddeld was de CER nu 9,59%. Na de toevoeging van extra GT’s in de trainingset daalde de gemiddelde CER van VOC/Not. M2 naar 9,11% (zie tabel).

Tabel 1: Ontwikkeling van de CER van de HTR modellen van Project IJsberg

Een waarschuwing: het doel van Project IJsberg is om scans volledig doorzoekbaar te maken op tekstniveau, niet om perfecte transcripties te maken. De transcripties zijn een hulpmiddel die altijd in combinatie met de scan van het origineel gebruikt moeten worden. Er blijven fouten in de transcripties. Zo maakt de CE - zoals die berekend wordt- in Transkribus onderscheid tussen hoofd- en kleine letters. Schakel je dit onderscheid uit, dan verhoogt dit de CER met 0,7%. Ook wordt bij de berekening van de CER gekeken naar leestekens. Staat achter een woord een punt in plaats van een komma, dan wordt dat ook fout gerekend. In tegenstelling tot hoofd- en kleine letters, kan hier binnen Transkribus niet op worden gefilterd. Bij telling bleek dat door interpunctiefouten de CER 2.33% hoger wordt.
Tot slot lijkt het erop dat de CER op volledige pagina’s een stuk lager uitvalt dan op de samplesets. Bij een CER van 11,88% op een set is het niet uitzonderlijk dat op een volledige scan een CER van 8% of zelfs 5% wordt behaald.

Vincent Noppe
Nationaal Archief

Trefwoorden