Blog Stadsarchief Amsterdam - Tekstherkenning (5): Tabellen
Handwritten Text Recogniton (HTR) biedt een uitgelezen kans om bronnen aan het licht te brengen die a...
Op 15 en 16 februari 2024 vond de Transkribus User Conference plaats. Tijdens dit terugkerende congres komt de Transkribus-gemeenschap bij elkaar om ervaringen en inzichten te delen. Daarnaast worden de plannen voor de doorontwikkeling van het platform gepresenteerd. Collega’s Niek Verhoeff en Pauline van den Heuvel waren erbij.
Transkribus is niet beperkt tot de techniek en software achter Handwritten Text Recognition (HTR), maar heeft zich ontwikkeld tot een ecosysteem met diverse toepassingen voor scannen, het trainen en herkennen van historische handschriften, drukwerk en lay-out, en het delen en publiceren op een online omgeving daarvan. In de nabije toekomst wordt ook gewerkt aan meer opties voor tussen gebruikers onderling en het in samenhang doorzoeken van Transkribus-collecties. Er is een actieve, internationale community ontstaan die ook meer eisen stelt aan Transkribus als een interactief platform.
In de eerste presentaties werden de grote vragen gedeeld over de toekomst van AI. Welke human/machine-scenario's zijn er en wat kan Transkribus hierin betekenen? Transkribus onderzoekt verschillende mogelijkheden om gebruik te maken met AI. Bijvoorbeeld trainbare Named Entity Recognition (waarmee plaats- en persoonsnamen kunnen worden gevonden ), field models die structurele elementen met semantiek combineren, en een multimodale aanpak voor informatie-extractie die zowel tekstuele als visuele informatie op een pagina herkent. Elke nieuwe techniek heeft uiteraard beperkingen en daarom kan niet alles zonder meer binnen Transkribus worden geïmplementeerd.
Link to videoIn praktische zin wordt het platform als webapplicatie doorontwikkeld, om uiteindelijk de desktopapplicatie te vervangen. Er komt meer functionaliteit voor International Image Interoperability Framework, ruimte voor metadata en modules met intuïtieve user interfaces voor het trainen, finetunen en gebruiken van modellen van Named Entity Recognition (NER) en Named Entity Linking (NEL). Er zijn nog geen directe plannen om Large Language Models (LLM) te implementeren, maar bij de presentatie van de NER/NEL-functionaliteiten werd wel voorzichtig genoemd dat LLM’s gebruikt kunnen worden om trainingsdata te maken voor NER-modellen. Zoals later tijdens de ronde tafel waar we aan deelnamen zou blijken, is men terughoudend omdat deze AI-modellen nu nog teveel onjuiste informatie produceren en tegelijkertijd een grote computerkracht vergen. Per toepassing zal dan moeten worden afgewogen of dit een gewenst product oplevert dat niet veel minder fouten of energie kost dan wanneer een mens het maakt.
Er volgde een groot aantal presentaties en use cases voor heel specifieke toepassingen, bijvoorbeeld van onderzoekers die erin geslaagd waren modellen te trainen voor amper leesbare stenografische handschriften, Aziatische karakters of specifieke tabelstructuren. De focus van het congres lag dit jaar duidelijk op informatie-extractie: het ophalen van specifieke informatie uit een document. Zo waren er verschillende presentaties van onderzoeken waarin gebruik gemaakt werd van ‘traditionele’ Natural Language Processing-technieken zoals NER, keyword spotting, document classification en sentiment analysis.
Als Stadsarchief Amsterdam zijn we, naast enkele andere grotere instellingen als het Utrechts Archief en het Zweedse Riksarkivet, vooral ook geïnteresseerd in het grotere plaatje: wat kunnen we verder met HTR en welke toepassingen kunnen we integreren in onze complete collectie? Eén van de vragen is wat LLM’s hierin kunnen betekenen. De tweede dag namen we samen met David Brown van Trinity College Dublin, Heleen Wilbrink van het Utrechts Archief en het R&D-team van Transkribus de mogelijkheden en onmogelijkheden van LLMs door. David Brown zag in LLM’s een onderzoeksassistent die snel teksten kan analyseren, Heleen Wilbrink en wij meer een tool voor het maken van beschrijvingen en gestructureerde data. Ook uit het publiek, online en in de zaal, kwamen antwoorden en suggesties. Een uur was duidelijk veel te kort voor dit onderwerp; we komen er zeker op terug en Transkribus gebruikt alle input van het congres voor een vervolgonderzoek en -survey.