Transkribusprojecten

  • nov 2019
  • Milo van de Pol
  • ·
  • Aangepast 27 jun
  • 2
  • 83
Milo van de Pol
Automatische Tekst Herkenning
  • Peter Hoogerbrugge
  • Ronald Sluijter

Een nieuw transcriptieproject opgestart? Stel je hier voor en geef een korte toelichting op je project.
Vertel daarbij iets over de aard van de handschriften, uit welke tijd ze komen, in welke taal ze zijn opgesteld en (belangrijk) of de opgeleverde transcriptiedata deelbaar is op -bijvoorbeeld- het KIA-platform.

Reacties

2 reacties, meest recent: 28 december 2019
  • Hallo, ik werk voor het Huygens ING aan het project REPUBLIC, een NWO-groot project met als doel het online beschikbaar maken en ontsluiten van de handgeschreven en gedrukte (vanaf 1703) resoluties van de Staten-Generaal van 1576-1796. De taal is voornamelijk Nederlands, maar ook Frans en Latijn komen voor. Voor het manuscript-gedeelte gebruiken we Transkribus. We zijn vanaf juni dit jaar bezig met het creëren van ground truth en het trainen van de HTR, met goede resultaten. De ground truth en de modellen zullen t.z.t. beschikbaar komen voor algemeen gebruik.

    Ronald Sluijter
  • Hallo, ik ben Peter Hoogerbrugge en ik heb samen met Els van Mourik een experiment gedaan om zo'n 130 getranscribeerde pagina's van Van Buchel (leefde rond 1600 in Utrecht) in Transkribus in te voeren en daarmee een model te trainen. Dit was deels Nederlands en deels Latijn. Het experiment kostte relatief weinig tijd omdat de transcripties al online beschikbaar waren; ze hoefden alleen opgeschoond en uitgelijnd te worden.
    Het resultaat was een model dat op test-pagina's een character error rate van ongeveer 7 % haalde. Daarna hebben we dit model toegepast op een paar honderd andere scans uit andere inventarisnummers. We waren vooral onder de indruk van het vermogen om met KeyWord Spotting.naar bijvoorbeeld achternamen te zoeken, zelfs waar de transcriptie niet volmaakt was.
    We hebben een vaag plan opgevat om voldoende transcripties van Van Buchel en vader en zoon Booth in te voeren, om daarmee in staat te zijn om alles wat deze drie personen geschreven hebben daarmee doorzoekbaar te maken. Omdat dit nogal veel scans zijn, zullen we dit t.z.t. in samenwerking met het Utrechts Archief doen.

    Peter Hoogerbrugge

Trefwoorden