Verslag Transkribusbijeenkomst Stadsarchief Amsterdam

  • dec 2019
  • Milo van de Pol
  • ·
  • Aangepast jun 2024
  • 201
Milo van de Pol
Automatische Tekst Herkenning
  • Marco Roling
  • KIA Community Manager

In december 2019 rondde het Stadsarchief Amsterdam het crowd sourcing project “Crowd leert computer lezen” af. Om dit te vieren organiseerde het Stadsarchief Amsterdam samen met het Nationaal Archief op woensdag 11 december 2019 een bijeenkomst waarbij een grote groep gebruikers van Transkribus, het programma voor handschriftherkenning, bijeenkwamen om hun ervaringen te delen. Centraal hierbij stonden drie vragen: Wat heb je binnen het project gedaan met Transkribus? Wat ging goed en wat ging niet goed? Wat zou je, met de kennis van nu, anders hebben gedaan?
Dit verslag, dat mede met hulp van verschillende toegestuurde samenvattingen tot stand is gekomen (waarvoor dank!) geeft in vogelvlucht de inzichten, wensen en problemen weer waar de verschillende projecten de afgelopen jaren tegenaan liepen - en lopen. Op het webplatform Kia.pleio.nl zijn tevens de gebruikte powerpointpresentaties van de verschillende sprekers terug te vinden. Zij zijn geplaatst in de online werkgroep “HTR en OCR”, onder de tab Bestanden.

Foto: Pauline van den Heuvel

Het drukke dagprogramma werd via Skype geopend door Günter Mühlberger van het Transkribus-team. Hij bracht de deelnemers van de bijeenkomst op de hoogte van nieuwe projecten onder de Transkribus-paraplu, de toekomstplannen van het READ-COOP-team en –belangrijk- de nieuwe features in de laatste en komende releases van Transkribus. Zo is het nu al mogelijk om met een base model te trainen in HTR+. Daarnaast kan nu P2PaLA getraind worden en wordt er gewerkt aan de verbetering van text2image. Günther onderkende wel dat er nog veel werk verricht moet worden om deze features te laten doen wat ze beloven. Ook zijn er inmiddels veel nieuwe publieke modellen beschikbaar in Transkribus. Een email naar het Transkribusteam volstaat om een nieuw model ‘publiek te zetten’. Günter waarschuwde echter voor een te groot aanbod van modellen; dat zou de overzichtelijkheid niet ten goede komen. Mogelijk komt er in de toekomst echter wel een feature die kan voorspellen welk model het best gebruikt kan worden.Een interessante ontwikkeling waaraan het team nu werkt is keyword spotting. Günter toonde de mogelijkheden die dit biedt aan de hand van het voorbeeld van een nieuwe interface voor het Finse Nationale Archief.Günter gaf verder een korte uitleg van de plannen van READ-Coop. Het idee is om het platform gratis te houden voor kleinschalig gebruik. Transkribus Open Source maken is vanwege de commerrciële opzet niet mogelijk. Alleen professionele gebruikers zullen met kosten te maken krijgen. Men probeert in landen als Zweden, Denemarken en Oostenrijk animo te kweken voor Transkribus. Na de introductiesessie van Günter volgden in de loop van de ochtend en begin van de middag verschillende use cases. Jiris Reinders en Pauline van den Heuvel van Stadsarchief Amsterdam beten het spits af met hun bevindingen rondom het notarissen-project van de SAA :“Eind 2017 begon het Stadsarchief met het crowd source project ” Crowd Leert Computer Lezen” om het archief van de Amsterdamse notarissen (1578-1915) doorzoekbaar te maken op word-level. Dit was het eerste crowd source based transcriptieprogramma in Nederland wat gerealiseerd werd door een samenwerking van Picturae met Transkribus. Sinds de inrichting ervan (in de loop van 2018 en het begin van 2019) ontstonden twee projecten: een besloten project om modellen from scratch te maken en een open project waarbij gebruik gemaakt kon worden van een reeds bestaand model (specialistisch of, later, algemeen). In de loop van 2019 kwamen steeds meer goede modellen in omloop, waardoor is gekozen om het besloten project te sluiten. Vanwege voortschrijdend inzicht is het Stadsarchief van mening dat het eindeloos doortrainen van modellen op basis van één notarishandschrift met duizenden scans, zinloos is en te weinig toevoegt en dat afgestapt moet worden van het afleveren van ‘perfecte transcripties’. De nadruk in het open project ligt daarom nu op het trainen van circa 500-1000 scans per notarishandschrift, waarbij gewerkt kan worden met steeds betere algemene modellen. Het Stadsarchief is nu helemaal klaar om op grote schaal HTR te produceren, maar het grootste vraagstuk voor de toekomst is hoe deze bulk-HTR betaald kan worden en of er bij deze aantallen een vorm van Quality Control kan worden toegepast.”

Liesbeth Keijser, werkzaam als projectleider bij het Nationaal Archief, deelde haar inzichten die zij heeft opgedaan in het project De IJsberg zichtbaar maken; een samenwerking tussen het Nationaal Archief (NA) en het Noord-Hollands Archief (NHA): “Het NA digitaliseert ruim 30 meter archief per week. Dat is circa 15 miljoen pagina’s per jaar. Maar we merken dat digitaliseren niet stopt bij scannen. De gedigitaliseerde archieven moeten beter toegankelijk gemaakt worden. Daarom zijn we nu aan de slag met automatische handschriftherkenning. Hiermee willen we de informatie die er op de scans van deze archieven staat full text doorzoekbaar maken. Het is de opzet om in twee jaar 2 miljoen scans van het NA uit de 17e tot en met de 19e eeuw op deze manier toegankelijk te maken.” Het NA vormde een klein team van transcribenten die een selectie van de scans van de VOC en notariele archieven van de NHA ontsloten in Transkribus. Van meet af aan was de CER van zowel het model van het NA als die van het NHA relatief laag. Opvallend was dat een combinatie van de Ground Truth’s (GT) tot een betere Character Error Rate (CER) leidde op het VOC-materiaal, maar niet noodzakelijkerwijs op het notarieel archief; daar bleef het specifieke NHA-model tot betere resultaten leiden. Hieruit viel te concluderen dat een generiek model niet altijd beter is en dat er ook specifieke modellen moeten komen.Inmiddels is men bij het NA begonnen met het maken en toepassen van de definitieve modellen. Daarbij worden in twee maanden tijd de 2 miljoen scans geprocessed. De bedoeling is om de transcripties uiteindelijk te kunnen presenteren en te bevragen via een interface, waarvoor nu drie prototypesworden ontwikkeld.

Onderzoeker Alan Moss stuurde het team van transcribenten bij het Nationaal Archief aan.Zijn verhaal (verteld door Liesbeth Keijser; hij was zelf door ziekte verhinderd) concentreerde zich op de ervaringen van het kleine team en de resultaten die zij boekten.De eis vanuit het NA was dat de transcribenten aantoonbare ervaring dienden hebben op het gebied van het lezen en transcriberen van vroegmodern handgeschreven materiaal. Via een selectieronde waarbij ze een transcriptietest moesten doen, viel de keuze uiteindelijk op vijf ervaren krachten die op uitzendbasis werden gecontracteerd. Het team moest de door een Vietnamese onderaannemer van READ gecorrigeerde transkribus-transcripties beoordelen, aanvullen en verbeteren. De aanvoer van werkvoorrraad aan het transcriptieteam liep echter trager dan gedacht. Het transkriptieteam moest daarom voor een deel van de productie de gehele correctie voor zijn rekening nemen, zonder tussenkomst van de Vietnamese onderaannemer. Daarnaast bleek hij grote moeite hebben met de 19e eeuwse notariele archieven. voor dit materiaal werd besloten dat het NA-team zelf de ‘ruwe’ HTR ging corrigeren. Uiteindelijk kwam het er op neer dat een transcribent gemiddeld 2 pagina’s per uur wist te corrigeren. Ondanks deze hindernissen wist het team meer dan 7000 pagina’s te verwerken.

Bij het Nationaal Archief wordt Transkribus ook ingezet om archieven op een andere manier te onsluiten. Dat dit niet altijd tot gewenste resultaten leidt legt Filotas Liakos (NA) uit: “Ik werk aan een project dat als doel heeft een P2PaLA model te creëren dat in staat is om de verschillende ‘niveau’s’ binnen archieven automatisch te herkennen. Om dit model te maken heb ik voornamelijk gewerkt met Structural Tags en P2PaLA modellen in Transkribus. Dat leverde jammer genoeg veel problemen op. Ten eerste vereist het maken van een model uitgebreid onderzoek, omdat er geen instructies of handleidingen van Transkribus zijn over hoe gebruikers met structurele tags kunnen werken en hoe men een model kan trainen dat in staat is om ze automatisch te herkennen in de tekst. Bovendien was het taggen zelf bijzonder tijdrovend, omdat elke structurele tag handmatig in de tekst geplaatst moest worden. Als er een optie beschikbaar was geweest om tekstgebieden te "kopiëren en plakken", zou dit proces veel gemakkelijker zijn. Ik kreeg overigens veel hulp van het Transkribus-team en meer specifiek van een specialist die de P2PaLA-modellen voor mijzelf kon opleiden, omdat ik niet de bevoegdheid had om dit zelf te doen (deze functie was niet niet beschikbaar voor gebruikers). De resultaten van het model waren teleurstellend. Dat geeft aan dat Transkribus nog steeds voor verbetering vatbaar is.” Het Utrechts Archief (UA)benaderde het transcriptieproces via Trankribus op weer een andere manier, zo vertelde Rick Companje (UA). Voor het Margaretha Turnorproject gebruikte het UA reeds bestaande transcripties van circa 1000 brieven van Margaretha Turnor (kasteelvrouwe van Amerongen) uit de 17e eeuw. Om deze te koppelen aan de scans van de brieven werd een team van zo’n 10 enthousiaste vrijwilligers ingezet. Omdat er sprake was van al bestaande transcripties, waren de resultaten dan ook zeer goed: Na een paar trainingsrondes zat de CER al op slechts 2 procent. Het automatisch verwerken van de transcripties verliep eveneens heel vlot: ongeveer 40 seconden per pagina. Inmiddels is het UA hard op weg de geproduceerde transcripties in te zetten voor een interactieve website, waarbij bezoekers van deze site kunnen ‘chatten’ met Margaretha zelf. Last but not least heeft men bij de UA een korte animatie over transcriptietechnieken gemaakt die voor vrij gebruik beschikbaar is via: https://t.co/eXpBQIxInI?amp=1

Niet alleen in de archievenwereld begint Transkribus houvast te krijgen; ook onderzoekers hebben het programma gevonden. Erika Kuipers sprak namens “Chronicling Novelty’, het gezamenlijke onderzoeksproject van de Vrije Universiteit en Universiteit Leiden, over haar ervaringen met de HTR-software.Dit project maakt voor het onderzoek gebruik van kronieken uit de periode 1500-1850. Deze worden met behulp van Transkribus getranscribeerd, ten einde ze full text te kunnen doorzoeken. 100 kronieken worden gedigitaliseerd door DBNL en 200 teksten in manuscriptvorm worden ter plekke in de verschillende archiefinstellingen gescand met de scantent. Om dit allemaal te bewerkstelligen werkt het project samen met samen met Vele Handen. Om op dit corpus van transcripties text mining tools zoals NER en topic modelling los te kunnen laten, dienen de teksten eerst genormaliseerd te worden naar modern Nederlands. Het leveren van een perfecte transcriptie is daarbij van ondergeschikt belang. De teksten worden immers vooral ontsloten voor hun informatie. Verder heeft het project voldoende aan de reeds beschikbare basismodellen en het NA-model.Er is echter wel een knelpunt en dat is de segmentatie van de teksten. Marginalia, los bijgevoegde bladen met tekst en opsommingen vergen veel tijd om goed verwerkt te worden in Transkribus.Een ander probleem waar veel tijd in zal gaan zitten is het taggen van tekst. Wellicht wil het project naast Transkribus een xml-tagger inzetten. Ook Het Huygens Instituut voor Nederlandse Geschiedenis heeft inmiddels enkele onderzoeksprojecten lopen, waarbij gebruik wordt gemaakt van de mogelijkheden van Transkribus. Hierbij streeft men echter wel naar de “perfecte transcriptie”. Senior-onderzoek Geertrui van Synghel zet dit uiteen middels haar project Project ‘Ontsluiting Schepenregisters van ’s Hertogenbosch 1366-1811’:“De schepenregisters van de vrijwillige rechtspraak bevatten hoofdzakelijk de pre-kadastrale registratie van Stad en Meierij van ’s-Hertogenbosch. Deze archiefbron bestaat uit 620 seriële registers van 1366 tot en met 1810, waarvan enkel de protocollen uit de periode 1366 tot 1500 zijn ontsloten via een (niet digitaal doorzoekbare) indicering op persoons- en plaatsnamen. Transkribus is binnen dit project ingezet om de nagenoeg ontoegankelijke protocollen uit 1501-1810 te ontsluiten, waarna de koppeling mogelijk wordt van deze data met reeds beschikbare, gestructureerde digitale bestanden, zoals Dataschurk (criminele dossiers 1550-1803), de Huizendatabase (transportakten huizen 1650-1821) en de notariële archieven (testamenten 1580-1842 en inboedelbeschrijvingen 1600-1850).De Transkribusresultaten met 16e-eeuws materiaal, hoofdzakelijk bestaande uit Latijnse akten, zijn boven verwachting met een CER-score op de testset van 4,86%. Dit percentage is dan nog negatief beïnvloed door de keuze van een sterk doorgevoerde oplossing van afkortingen en verschil van interpretatie bij woordscheiding en -splitsing. De automatische segmentatie en isolering van marginalia werkt uitstekend, de automatische herkenning van versteend formulier kan waarschijnlijk nog geoptimaliseerd worden. De verwachting dat dit model ook een positieve CER-score zou opleveren bij akten van een contemporaine stadssecretaris, die in een paleografisch sterk verwante hand Latijnse akten schrijft met eenzelfde structuur, dezelfde stenografische afkortingen en standaardformulier, werd echter niet ingelost.”

Ronald Sluijter, eveneens onderzoeker bij het Huygens ING houdt zich op vergelijkbare wijze met Transkribus bezig voor het REPUBLIC-project:“Transkribus wordt in dit project gebruikt om HTR in te zetten voor de transcriptie van de handgeschreven resoluties van de Staten-Generaal in de periode 1576-1703. Het gaat om ongeveer 400.000 pagina’s. Momenteel hebben wij ongeveer 550 pagina’s . We hebben inmiddels vier modellen gecreëerd. De CER van het beste model is 3,95%. In de loop van volgend jaar gaan we in batches meer scans HTR-en en via Vele Handen door de crowd verder laten corrigeren. De gecorrigeerde scans worden vervolgens weer ingezet voor training. Het project streeft naar een zo perfect mogelijke transcriptie van alle scans, omdat de machineleesbare tekst gebruikt zal worden om met behulp van diverse methoden de resoluties op een zo goed mogelijke manier te ontsluiten, en de ‘entities’ die erin voorkomen te koppelen aan databases die daarover meer informatie bieden. Gezien de lage CER verloopt dit deel van het project zeer goed, en er is dan ook weinig wat we bij nader inzien anders gedaan zouden moeten hebben. Belangrijk is wel dat ook het goed herkennen van de verschillende ‘text regions’ geautomatiseerd kan worden, aangezien het handmatig aanbrengen gezien het aantal pagina’s niet doenlijk is. Daaraan wordt momenteel gewerkt.” In de loop van de middag wierp Annemieke Romein, eveneens werkzaam bij Huygens ING, een blik op toekomstige ontwikkelingen bij Transkribus. Als fellow bij de Koninklijke Bibliotheek werkte zij met nieuwe technieken, die weliswaar nog niet uitgekristalliseerd (zoals Günter ’s ochtends al meldde) maar wel veelbelovend zijn:“Binnen ‘Entangled histories’ hebben we gewerkt met plakkaatboeken (drukwerk) en hebben we de leeskwaliteit geoptimaliseerd. Ook hebben wij gekeken of we deze konden segmenteren (aangezien het een compilatie van wetteksten is) en automatisch konden meta dateren (Annif).Het segmenteren vormt een grote uitdaging en is dus ook zeker toereikend geweest. Wel heb ik P2PaLA, NLE Document Recogition en een handgemaakte tool van Sara Veldhoen (gebaseerd op woordherkenning en ABBYY Fine Reader 11) kunnen testen. De resultaten waren uiteenlopend. P2PaLA functioneerde op sommige boeken vrij aardig (met zo min mogelijk tags); NLE Document Recognition van Naverlab had een score van 85%; Sara’s tool werkte heel goed, maar was handgemaakt voor één boek.Layout Analyse is belangrijk. Zoals Marijn Koolen (DHBenelux2019) zei: de layout is destijds bewust vormgegeven, daar zit veel informatie in besloten. Kortom, het is beter om hier de tijd voor te nemen. Dit blijkt geen ‘text-enrichment’ te zijn, maar heel basaal in het begin te moeten gebeuren. Dat wist ik destijds niet. Achteraf corrigeren kost veel tijd en frustratie. Mijn les is dat ik daar voor moet gaan zitten en mogelijk ook met mensen uit andere disciplines (taalkundigen) om te weten wat die eventueel uit diezelfde bronnen zouden willen halen. "

Picturae en Claencode, twee van de leveranciers van een prototype voor de presentatie van transcripties bij het Nationaal Archief, gaven aan het eind van de middag nog een vooruitblik op hun werk. In februari leveren zij hun prototypes op. Eind 2020 zal er uiteindelijk één doorontwikkelde versie beschikbaar komen die zoveel mogelijk open source en herbruikbaar is. NB: mochten er in dit verslag fouten zijn geslopen of zijn er opmerkingen, laat dan een bericht achter via het reactieformulier.

Trefwoorden