Update

  • nov 2019
  • Liesbeth Keijser
  • ·
  • Aangepast 27 jun
  • 21
Liesbeth Keijser
Automatische Tekst Herkenning

Historische handgeschreven archieven toegankelijk met kunstmatige intelligentie
(bericht uit de groep Toegang tot Data geplaatst in september 2019)

Het Nationaal Archief heeft de laatste jaren veel gedigitaliseerd. Historische handgeschreven archieven zijn als plaatjes beschikbaar op internet maar de informatie in deze documenten is niet doorzoekbaar. Daar willen we verandering in brengen.

In het innovatieve project 'De ijsberg zichtbaar maken' transcriberen we met behulp van machine learning twee miljoen scans van historische handgeschreven documenten. We gebruiken hiervoor het transcriptieplatform Transkribus.

We selecteerden 1 miljoen scans van het archief van de Verenigd Oost-Indisch Company (VOC) uit de 17e en 18e eeuw van het Nationaal Archief. Van de Regionaal Historische Centra (RHC) selecteerden we 1 miljoen scans van notariële archieven uit de 19e eeuw.

Inmiddels heeft het transcriptieteam van het Nationaal Archief 2500 pagina’s getranscribeerd. Hiermee leren we de machine automatisch te transcriberen. Het model is al erg goed, slechts 6,15% van de karakters in de testset wordt niet correct herkend. We hebben nog een aantal maanden om het model nog beter te maken.

Een volgende stap is dat we iets willen laten bouwen voor het zoeken in de transcripties en het tonen van de resultaten. Belangrijk is dat de onderzoeker vindt wat hij zoekt (een persoons, een plaats, een gebeurtenis). Bij het full-text doorzoeken van de transcriptiedata krijgt de onderzoeker een oerwoud aan resultaten te verwerken. Kan hij door de bomen het bos nog wel zien? Daarnaast hebben we ook te maken met transcriptiefouten, spellingsvarianten, oude taal en fouten in de herkenning van de lay-out.

Kort om, het wordt een behoorlijke uitdaging om hier iets goeds voor te bouwen. Daarom hebben we gekozen voor een aanbesteding in de vorm van een competitie waarbij we vragen de uitdagingen op te lossen met o.a. kunstmatige intelligentie (SBIR). Na een offerte traject krijgen drie leveranciers budget om een prototype te ontwikkelen. Het beste prototype wordt vervolgens doorontwikkeld.

Trefwoorden