Transcriptieconventies

  • nov 2019
  • Milo van de Pol
  • ·
  • Aangepast 27 jun
  • 6
  • 25
Milo van de Pol
Automatische Tekst Herkenning
  • Jirsi Reinders
  • Erika Kuijpers
  • Liesbeth Keijser
  • Ronald Sluijter
  • C. Annemieke Romein
  • Henri Brandenburg

Welke conventies worden toegepast tijdens het transcriberen? Is het mogelijk tot een gezamenlijke conventie te komen ten einde het uitwisselen van Ground Thruths makkelijker te maken?

Reacties

6 reacties, meest recent: 16 december 2019
  • De werkgroep PaiZ (Paleografie in Zeeland) hanteert de kritisch-normaliserende methode. De insteek is om zoveel mogelijk materiaal zo gemakkelijk mogelijk toegankelijk te maken en dat gaat niet met diplomatische transcripties omdat daar in principe veel - soms ondoorzichtige - afkortingen in zouden blijven bestaan.
    Transcribus blijkt goed te kunnen omgaan met afkortingen; als die in de te trainen tekst voor een bepaald model consequent op de juiste manier voltooid worden, zal Transkribus dat later bij het transcriberen van nieuwe teksten bij gebruik van dat model foutloos doen.

    Henri Brandenburg
  • Met betrekking tot afkortingen blijkt het zo te zijn dat het markeren niet de oorzaak is van het uitvullen van de afkorting, maar dat Transkribus tot en met drie tekens (die impliciet in een afkorting kunnen zitten) uit kan vullen; langere afkortingen zouden een probleem kunnen vormen. Ik heb dit als een 'bug' gemeld, omdat er eigenlijk de mogelijkheid zou moeten zijn om de documenten mét en zonder uitvullen te exporteren, maar dit dus nu nog niet werkt.

    C. Annemieke Romein
  • Aangezien de vuistregel bij Transkribus is: zoveel mogelijk letterlijk transcriberen, hebben wij in het REPUBLIC-project (Resoluties Staten-Generaal 1576-1796) tot nu toe de afkortingen als zodanig getranscribeerd en vervolgens opgelost via de markeringen. Dit met de gedachte ze later voluit te kunnen weergeven in de voor het publiek toegankelijke transcriptie, en om ze te kunnen gebruiken als trainingsmateriaal voor de overige resoluties. We lossen de afkortingen niet altijd op dezelfde manier op; als de griffier/klerk elders in zijn tekst het woord wel uitschrijft, gebruiken we die spelling als oplossing voor de afkortingen. Overigens is het de vraag of we ons in alle gevallen heel druk moeten maken om afkortingen; gebruikers zullen waarschijnlijk niet snel zoeken op woorden als 'ende' of 'voorschreven' (maar weer wel op 'Admiraliteijt').

    Ronald Sluijter
  • 20191202-Transkribus Transcription Convention-Project De IJsberg Zichtbaar Maken.pdf

    Bij deze de transcriptie conventie die is gebruikt voor het project van het Nationaal Archief, De ijsberg zichtbaar maken.

    In dit project, dat loopt van januari 2019 t/m december 2020, ontsluiten we twee miljoen scans van archieven met semi-automatische handschriftherkenning. Het Nationaal Archief selecteerde scans van het archief van de VOC (17e en 18e eeuw). Van de Regionaal Historische Centra, waaronder het Noord-Hollands Archief werden scans selecteerde van notariele archieven (19e eeuw).

    Een belangrijke pijler van het project is het maken van transcripties. Hiermee worden modellen gemaakt voor het automatisch transcriberen van historische handschriften. Een tweede pijler van het project is het bouwen van een functionaliteit voor het zoeken in de transcripties.

    Liesbeth Keijser

Trefwoorden