'Tag de tekst': vrijwilligers gaan de computer leren teksten beter te ontsluiten

  • sep 2020
  • Milo van de Pol
  • ·
  • Aangepast 27 jun
  • 2
  • 28
Milo van de Pol
Automatische Tekst Herkenning
  • Marjoleine Houben
  • Nico Vriend
  • Thomas van Maaren
  • Annelies van Nispen

In het project ‘Tag de tekst’ gaan het Nationaal Archief, het Stadsarchief Amsterdam, en het Noord-Hollands Archief op crowdsourcingsplatform VeleHanden duizenden Nederlandstalige teksten uit de 17e eeuw tot en met de 19e eeuw' taggen' (annoteren). Dat betekent dat in de teksten wordt gezocht naar persoonsnamen, locaties en tijdsaanduidingen en dit geregistreerd (getagd) wordt.

Het gaat om notariële teksten uit Amsterdam, Haarlem en uit andere provincies en archieven van de VOC. Deze zijn afkomstig uit het Stadsarchief Amsterdam, Noord-Hollands Archief, Nationaal Archief en Regionaal Historische Centra. Deze teksten zijn al getranscribeerd en worden in dit project door vrijwilligers getagd op persoonsnamen, locaties en tijdsaanduidingen. Dit vormt trainingsmateriaal voor Artificial Intelligence (AI). Dankzij deze voeding zal de AI steeds beter worden in het herkennen van persoonsnamen, locaties en tijdsaanduidingen in ruim twee miljoen teksten. In vervolgprojecten kan de AI verder getraind worden om ook andere begrippen te vinden in teksten, zoals scheepsnamen, beroepen of kunstvoorwerpen.

Dit project stelt ons in staat om handgeschreven teksten veel gedetailleerder doorzoekbaar te maken, bijvoorbeeld op locaties. Niet alleen van de archieven die meedoen aan dit project, maar op den duur ook elk Nederlands archief. Dat is goed nieuws, omdat er nog honderden kilometers documenten in Nederlandse archieven wachten op deze vorm van digitalisering.

Meedoen?

Meld je aan op VeleHanden en ‘Tag de tekst’!

Samenwerkingsverband

Het project ‘Tag de tekst’ is een samenwerking van de leveranciers Picturae, Aincient, Sioux LIME en Islands of Meaningm met als doel nieuwe dienstverlening te ontwikkelen vóór- en samen met het Stadsarchief Amsterdam, Noord-Hollands Archief en Nationaal Archief. Het project wordt mede mogelijk gemaakt door het SBIR-programma voor innovatie van de Rijksdienst voor Ondernemend Nederland.

Reacties

2 reacties, meest recent: 7 oktober 2020
  • Leuk project en ik ben vrijwilliger geworden. Gaan jullie in de toekomst de ervaringen delen van het trainen van de AI? Of is er al meer informatie beschikbaar?

    Annelies van Nispen

Trefwoorden