Update

  • mrt 2020
  • Joyce Pennings
  • ·
  • Aangepast jun 2024
  • 1
  • 161
Joyce Pennings
Automatische Tekst Herkenning
  • Violet
  • Verwijderde gebruiker
  • Marco Roling
  • Milo van de Pol

Na de publicatie van ons eerste model op Transkribus met ruim 1000 17e-eeuwse brieven van Margaretha Turnor - kasteelvrouwe van Amerongen - is Het Utrechts Archief nu aan het experimenteren met de Text2Image module in Transkribus. We deden dit samen met een groep studenten van de UU met getypte transcripties van wederom 17e-eeuwse brieven uit het familiearchief Martens, een familie die eeuwenlang aan het Janskerkhof in Utrecht woonde. Daarvoor hebben we alle getypte brieven via OCR omgezet naar digitale tekst. Deze teksten gebruikten we als input voor de Text2Image module in Transkribus. De module koppelt de OCR-tekst-regels aan de regels in de originele brieven. Het resultaat konden we gebruiken als trainingsdata om een model te trainen van het handschrift van ‘David Martens’. Het trainen van het model duurde een aantal uren. En het resultaat mag er zijn; namelijk een goed handschrift model met rapportcijfer 9,2. Puur dus op basis van het werk van transcribenten uit 1994. Met een enorme verzameling aan dit soort getypte transcripties uit het verleden, smaakt dit naar meer. We gaan de komende tijd verder experimenteren met de Text2Image tool.

Reacties

één reactie, 12 maart 2020
  • Dank voor deze update, Joyce. Heel interessant! Hou ons op de hoogte.

    Milo van de Pol

Trefwoorden