Update

  • jan 2020
  • Liesbeth Keijser
  • ·
  • Aangepast 27 jun
  • 2
  • 106
Liesbeth Keijser
Automatische Tekst Herkenning
  • Luud de Brouwer
  • Violet
  • Marco Roling
  • C. Annemieke Romein

Mijlpaal HTR-modellen maken

Begin 2019 startte het Nationaal Archief (NA) met het project De ijsberg zichtbaar maken, waarbij 2 miljoen scans worden ontsloten met behulp van Transkribus, een tool voor automatische handschriftherkenning. De gehele dataset bestaat uit:

  • circa 1 miljoen scans van de VOC uit de 17e en 18e eeuw van het NA;

  • circa 400.000 scans van notariële archieven uit de 19e eeuw van het Noord-Hollands archief (NHA);

  • circa 600.000 scans van notariële archieven uit de 19e eeuw van 9 andere regionaal historische centra (RHC’s).

In december 2019 werd een eerste belangrijke mijlpaal bereikt. Het transcriptieteam van het project rondde die maand haar werk af. Zij leverde 7706 getranscribeerde pagina’s aan: 4810 pagina’s van het archief van de VOC, 2393 pagina’s van het notariële archief van het NHA en 500 pagina’s van de notariële archieven van andere RHC’s.

VOC
Met de bovengenoemde transcripties zijn tevens verschillende modellen getraind om het automatisch transcriberen mogelijk te maken. Van de transcripties van de VOC werden onder andere de volgende modellen gemaakt:

  • een specifiek 17e-eeuws VOC model;

  • een specifiek 18e-eeuws VOC model;

  • een gecombineerd VOC-model van zowel transcripties van archieven uit de 17e- en 18e- eeuw.

Het gecombineerde model bleek het beste resultaat te geven voor zowel de 17e- als 18e-eeuwse handschriften. De character error rate (CER) was 5,3 op de test set en 7,3 op de sample set.

Het IJsberg model, een gecombineerd model met transcripties van het archief van het NA, het NHA en de overige RHC’s gaf bijna dezelfde resultaten op de scans van de VOC als het gecombineerde VOC model.

Noord-Hollands Archief
Voor de verwerking van de scans van het NHA werden onder andere de volgende modellen gemaakt:

  • een model met enkel transcripties van archief van het NHA;

  • een gecombineerd model met transcripties van archief van zowel NHA als van de overige RHC’s.

Ook hier bleek het gecombineerde model het beste resultaat te geven. De CER was 3,9 op de test set en 6,6 op de sample set.

Overige Regionaal Historische Centra
Voor de scans van de overige RHC’s werden onder andere de volgende modellen getest:

  • een gecombineerd model met transcripties van zowel archief van het NHA als van de overige RHC’s;

  • Het IJsberg model. Een gecombineerd model met transcripties van zowel archief van het NHA, de RHC’s als van de VOC.

Het IJsberg model bleek het beste resultaat te geven met een CER van 5,2 op de test set en 7.6 op de sample set.

Conclusie
Bovenstaande leerde ons dat het goed was om verschillende modellen te bouwen om te bepalen wat het beste resultaat gaf. Vooraf was namelijk niet duidelijk of een specifiek of juist een meer generiek model het meest geschikt zou zijn. Al met al overtroffen de foutenmarges de verwachtingen die we hadden aan het begin van het project. Uit een beknopte analyse bleek bovendien dat een aanzienlijk deel van de fouten vooral betrekking had op interpunctie in de handschriften.

Langzaamaan is automatische handschriftherkenning bezig een volwassen broertje te worden van optical character recognition (OCR) voor gedrukte en getypte documenten. Dat deze ontwikkeling grote invloed zal hebben op toekomstig archiefonderzoek is een understatement.

De transcripties zijn gepubliceerd als open data op het Zenodo-platform. Het IJsberg model komt binnenkort vrij beschikbaar in Transkribus zodat iedereen het kan gebruiken om scans mee te transcriberen of als basis voor een eigen model.

Reacties

2 reacties, meest recent: 11 februari 2020
  • Prachtig. Een doorbraak zou ik zeggen. Ik ga dit model zeker uitproberen op 17e/18e eeuws materiaal. Ben verder voornemens om met een aantal (geconstrueerde) voorbeelden en dit model te kijken in hoeverre archiefschade (papierverkleuring en inktvraat) van nadelige invloed is op HTR toepassing. Wordt vervolgd!

    Marco Roling

Trefwoorden