Blog Stadsarchief Amsterdam - Tekstherkenning (5): Tabellen

  • nov 2023
  • Tessel Dekker
  • ·
  • Aangepast 27 jun
  • 31
Tessel Dekker
KIA Community
  • Giessen Renier van de

Handwritten Text Recogniton (HTR) biedt een uitgelezen kans om bronnen aan het licht te brengen die alleen met veel moeite te doorgronden zijn en daarom weinig aandacht krijgen. De afgelopen jaren hebben we grote hoeveelheden zeventiende- en achttiende-eeuws notarieel archief op detailniveau doorzoekbaar gemaakt. Nu richten we ons op een volgend zwart gat in onze collectie: gemeentelijke (bouw-)archieven en hun papieren wegwijzers, de indicateurs. AI-modellen moeten niet alleen de handschriften herkennen, maar ook de tabelstructuur op de pagina. De indicateurs zijn nu via Transkribus doorzoekbaar gemaakt.

Het indicateurstelsel

De communicatie aan en tussen de afdelingen van de Gemeente Amsterdam werd vanaf halverwege de negentiende eeuw vastgelegd in indicateurs. Kwam er een brief binnen, dan kreeg deze een nummer in de indicateur plus een beschrijving van de strekking, de betrokkenen en wat ermee moest gebeuren. Ditzelfde nummer werd op de brief zelf geschreven en per jaar op volgorde van nummering opgeborgen. Omdat alleen aan de hand van een nummer natuurlijk niets kon worden teruggevonden, werden er tegelijkertijd alfabetische indexen gemaakt op de in de indicateurs voorkomende namen en trefwoorden. Die speurtocht was tot voor kort de enige manier om de stukken te vinden. Omdat ze niet meer bij elkaar in een kantoor staan kost het tijd en doorzettingsvermogen om via geblader in de groot-formaat indicateurs de verwijzing naar de dossiers en de stukken te vinden, en die vervolgens op te sporen en te bekijken. Ze worden daarom niet al te veel geraadpleegd.

In een digitale wereld moet dat beter kunnen. Kunnen we niet het hele papieren zoekapparaat overslaan en bijvoorbeeld alleen de correspondentie, de inhoudelijke stukken, scannen en doorzoekbaar maken? Dat is een mogelijkheid, maar dan heb je nog steeds maar een fragment van de puzzel. De indicateurs functioneren namelijk nog steeds als een wegwijzer naar alle relevante stukken, ook de stukken die zijn doorgestuurd en op een andere afdeling terecht zijn gekomen of later door archivarissen elders zijn opgeborgen, zoals tekeningen en bestekken. De indicateurs geven het beste overzicht van de zaak, de betrokkenen (zowel burgers en bedrijven als ambtenaren en gemeentelijke diensten), en wat er uiteindelijk mee gebeurd is.

Publieke Werken 1851-1945

Gezien het grote belang van de historische bouwarchieven voor de stad kozen we voor de indicateurs van Publieke Werken 1851-1945 als pilot. Deze dienst was verantwoordelijk voor aanbestedingen, realisatie en onderhoud van allerlei bouwwerken, sloop en uitbreiding, openbare gebouwen en voorzieningen, lozingen, riolering en elektra, havens, bruggen en kades, beplanting, vergunningen, verhuur en erfpacht. Maar ook personeelszaken en voorstellen en klachten van particulieren over de openbare ruimte of hun buren zijn er te vinden. De indicateurs zitten daarom vol namen van organisaties, adressen, perceelnummers en Amsterdamse burgers.

HTR training

De indicateurs vormen een mooie nieuwe uitdaging op het gebied van HTR: dit keer gaat het niet alleen om het herkennen van de handschriften, maar ook de structuur is van belang. Om te beginnen testten we hoe de handschriften van de negentiende-eeuwse ambtenaren werden gelezen door de bestaande HTR-modellen binnen Transkribus. Tegen de verwachting in scoorden die niet goed genoeg, daarom is gestart met het creëren van nieuwe Ground Truth (GT, de input op basis waarvan de AI leert. Het eerste model dat op basis van de indicateurs werd getraind leverde niet het gewenste resultaat. Omdat er in de indicateurs, met alle administratieve verwijsnummers en datums van afhandeling, relatief veel cijfers voorkomen werd het model hierop overtraind: er werden bijvoorbeeld veel b’s voorspeld als het cijfer 6. Daarnaast bleken net als zeventiende-eeuwse notarissen ook negentiende- en twintigste-eeuwse klerken op de secretarie soms opvallend lastig leesbare handschriften te hebben. In deze bron was bovendien sprake van heel specifiek jargon en afkortingen. Het bleek dat hiervoor een nieuw specialistisch model op basis van een kleine en beter gebalanceerde set GT uiteindelijk toch beter scoorde dan de bestaande en veel grotere HTR-modellen.

Inmiddels wordt AI ook steeds beter in het herkennen van tabellen, zelfs als, zoals bij de indicateurs, alleen de kolommen duidelijk door verticale lijnen gescheiden zijn en niet de horizontale rijen. Het was nog wel nodig om hiervoor een specifiek layout-model te trainen. Ook dit leidde na wat correcties en hertraining tot een model met acceptabel resultaat.

Mensenwerk

Wel een kanttekening - Met de huidige HTR-technieken worden eerst de cellen van de tabel herkend en daarna, binnen de cel, de tekst. We hielden daarbij geen rekening met de menselijke praktijk. Eindelijk was het gelukt alle variaties van tabellen goed weer te geven, toen bleek dat de geschreven informatie nog steeds niet altijd uit de verf kwam. Dit keer bleken het de ambtenaren zelf, die met grote regelmaat buiten de lijntjes schreven, kolommen negeerden of onder de voorgedrukte vakken een hele nieuwe variant tekenden. Om de informatie op de rechterpagina’s leesbaar te houden hebben we er daarom voor gekozen om met nieuwe Ground Truth te hertrainen op layout en daarin de kolomstructuur minder streng toe te passen. We hebben hiervan geleerd dat de geschreven tekst, of in elk geval voor deze bron, voorrang zou moeten krijgen op de voorgedrukte tabelstructuur.

De inhoud van de indicateurs is nu dus doorzoekbaar gemaakt. Maar nog steeds moet op basis daarvan de gang naar de stukken gemaakt worden, al kan dat nu veelal digitaal. In de toekomst zou elke zaak uit de indicateurs zo gemakkelijk mogelijk digitaal te reconstrueren moeten zijn. Een volgende stap is daarom om de verwijsnummers in de eerste kolom direct te linken naar de bijbehorende stukken. Omdat nog niet alles uit dit archief gescand is kan dat in eerste instantie alleen naar het inventarisnummer waarin het stuk zich bevindt. Hier zou een directe scanning on demand-service aan gekoppeld kunnen worden, zodat stukje bij beetje ook alle correspondentie digitaal beschikbaar komt. Verdere verrijking is mogelijk door namen van personen en organisaties als entiteit te herkennen en adressen en percelen te lokaliseren.

Resultaten

5.180 Archief van de Secretarie; Afdeling Publieke Werken, Indicateurs, inventarisnummers 10739-10935. 78.843 scans die doorverwijzen naar 10.738 bundels met correspondentie.

De doorzoekbare transcripties zijn te vinden in onze Transkribus HTR collectie. Na een zoekterm kan gefilterd worden op ‘Publieke Werken’.

Zie Overzicht beschikbare HTR - Stadsarchief Amsterdam

Trefwoorden