Project De ijsberg zichtbaar maken, stand van zaken

  • sep 2020
  • Liesbeth Keijser
  • ·
  • Aangepast 27 jun
  • 32
Liesbeth Keijser
Automatische Tekst Herkenning
  • Marco Roling
  • Milo van de Pol
  • Harm Pieters

Beste collega,
Met deze blog wil ik je ‘bijpraten’ over het project De ijsberg zichtbaar maken. Hierin ontsluiten we 2 miljoen scans van archieven met semi-automatische handschriftherkenning.

Selectie en trainingsmodellen

Voor het project selecteerden we scans van handschriften van het Nationaal Archief (NA) en van de Regionaal Historische Centra (RHC’s). Bij het NA kozen we voor het archief van de VOC uit de 17e en 18e eeuw. Daarnaast deden tien RHC’s mee met het aanleveren van notariële archieven uit de 19e eeuw. Het Noord-Hollands Archief (NHA), partner van het NA in dit project, leverde hierin de grootste bijdrage.

Alle geselecteerde scans zijn gestuurd naar de coöperatieve vereniging READ COOP die het semi-automatische transcriptieplatform Transkribus beheert. Ongeveer 6000 pagina’s, een dwarsdoorsnede van de scans, is in het platform door een team van deskundigen getranscribeerd. Met kunstmatige intelligentie hebben we met hun transcripties trainingsmodellen gemaakt die in staat zijn de archiefstukken verder automatisch te transcriberen. Circa 93% van de karakters wordt nu correct getranscribeerd door de computer.

De door het team handmatig gemaakte transcripties en hun scans zijn publiekelijk beschikbaar op de website Zenodo als trainingsdata. In Transkribus hebben we het daarmee getrainde model IJsberg publiekelijk beschikbaar gesteld voor het automatisch transcriberen van 17et/m 19 eeuwse handschriften.

Inmiddels zijn 2 miljoen scans met handschriften automatisch getranscribeerd. De resultaten van NA en NHA zijn al gepubliceerd op de website Zenodo. De transcripties van de overige RHC’s volgen spoedig.

Prijsvraag ‘Innovatie in Archiefonderzoek’

Om de dataset met transcripties van NA en NHA onder de aandacht te brengen hebben we een prijsvraag uitgeschreven onder studenten van Nederlandse en Vlaamse universiteiten en hogescholen. Zo willen we ontdekken welke nieuwe onderzoeks- of visualisatiemogelijkheden er zijn als onze archieven zijn ontsloten met automatische handschriftherkenning. De prijsuitreiking zal plaatsvinden tijdens een hybride (deels online) symposium op 17 mei. Zie voor flyer en reglement www.nationaalarchief.nl/handschriftherkenning.

Projectwebsite

Om het zoeken in de transcripties makkelijker te maken, ontwikkelen we nu een projectwebsite. Hierin zijn straks de scans en de transcripties van het NA en de RHC’s te doorzoeken. De uitdagingen voor deze nieuwe website zijn onder andere: hoe ga je om met transcriptiefouten; wat doe je met oude taal; hoe kunnen entiteiten zoals persoonsnamen en plaatsnamen het beste worden herkend; welke interface werkt het beste?

Vorig jaar schreven we een innovatiecompetitie uit in samenwerking met het ministerie van Economische Zaken. Na een selectie uit vele enthousiaste kandidaten mochten drie bedrijven een prototype maken. Begin dit jaar werden de prototypes opgeleverd en net voor de zomer hebben we twee leveranciers gecontracteerd voor de doorontwikkeling ervan: Picturae, met onderaannemers Aincient en Sioux Lime, is verantwoordelijk voor de back-end van de projectwebsite. Dit houdt onder andere in: het corrigeren van de transcripties; het moderniseren van de taal; het herkennen van entiteiten in de transcripties en het inrichten van een transcriptiebeheerssysteem. Daarnaast is het bedrijf Clean Code gecontracteerd voor de ontwikkeling van de front-end waarmee de scans en de transcripties in één oogopslag worden getoond en de inrichting van de zoekmachine.

We verwachten dat de projectwebsite medio mei gereed is. Deze website is tijdelijk, maar we streven naar een zo goed mogelijke herbruikbaarheid. We willen aansluiten bij de IT-architectuur van het NA en de RHC’s en waar mogelijk kiezen voor open source oplossingen.

Herkennen van entiteiten & crowdsourcing

Om entiteiten zoals locaties, namen en datum goed geautomatiseerd te herkennen in de transcripties, moet de software worden getraind. Daarom starten we binnenkort met een crowdsourcing project in Vele Handen waarin deze entiteiten door het publiek worden ‘getagt’. Dit doen we binnen het project Slimmer zoeken in archieven dankzij Artificial Intelligence en crowdsourcing 2.0. Dit is een project van het consortium Aincient, Sioux Lime en Picturae, waarbij Stadsarchief Amsterdam, NA en NHA proeftuinen zijn. De scans die we hebben getranscribeerd in het project De ijsberg zichtbaar maken worden nu gebruikt om entiteiten te taggen.

Informatie

Kijk voor meer informatie op:
https://www.nationaalarchief.nl/handschriftherkenning
Heb je vragen, schroom dan niet contact op te nemen.

Met vriendelijke groet,
Liesbeth Keijser

Trefwoorden