P2PaLA-modellen trainen in Transkribus

  • jan 2022
  • Filotas Liakos
  • ·
  • Aangepast 27 jun
  • 31
Filotas Liakos
Automatische Tekst Herkenning
  • Pepijn Lucker
  • Liesbeth Keijser
  • Milan van Lange
  • Annelot Vijn
  • Vincent Noppe
  • Bob Coret
  • Milo van de Pol

Het Nationaal Archief digitaliseert historische archieven op grote schaal. Om het navigeren door de scans op de website te vergemakkelijken worden bepaalde scans tijdens het digitaliseren gelabeld en van een beschrijving voorzien. Zo wordt in verbaalarchief de eerste scan van een dagbundel gelabeld en wordt de datum overgetypt. De items binnen een dagbundel worden ook gelabeld.

Bij een aantal inventarisnummers is het labelen niet correct uitgevoerd. Omdat het opnieuw digitaliseren te kostbaar is, onderzoekt het Nationaal Archief of het mogelijk is het labelen te realiseren met behulp van kunstmatige intelligentie. Omdat we ook bezig ben met automatische handschriftherkenning in het platform Transkribus leerde ik P2PalA kennen. Dat is software voor de herkenning van structuurtypen en is beschikbaar in Transkribus. We besloten te testen of het mogelijk is de dagbundels en items binnen de dagbundels te laten herkennen door P2PaLA. Hieronder volgt een verslag van dit onderzoek.

Het materiaal dat voor de training van de P2PaLA modellen werd gebruikt, was hetzelfde als dat wat moest worden gecorrigeerd, namelijk 523 inventarisnummers van het Ministerie van Koloniën met toegangsnummer 2.10.01, inventarisnummers 1464 tot 1986. Dit archief was tijdens het digitaliseringsproces gedeeltelijk verkeerd gelabeld. Slechts 47 van de 523 inventarisnummers waren correct gelabeld. In dit archief deden zich echter meerdere problemen voor die het trainen van een goed model vermoeilijkten:

  • Vaak ligt een kleine pagina op een grotere pagina's. Op een scan staan dan zowel de kleine pagina als de pagina erachter. Dit is een probleem omdat het model niet kan herkennen dat er in dezelfde scan twee pagina's zijn met verschillende afmetingen en niet één.

  • Het komt regelmatig voor dat er een item genest is in een ander item, met dezelfde uiterlijke kenmerken. Dit maakt de archiefordening rommelig en maakt de modeltraining uitdagend.

  • Bijna in elk inventarisnummer zijn er extra omslagen in de bundel die verwarring stichten in de archiefordening.

  • Er zijn elementen naast tekst in de bladzijden zoals tekeningen en zegels. Al deze extra elementen hebben de neiging de nauwkeurigheid van het model te verminderen en foutieve regio's te produceren.

Eerst zijn alle scans die moesten worden gelabeld geüpload naar Transkribus. Vervolgens onderzocht ik de lay-out van de documenten om herhalende patronen op te sporen. Na uitgebreid onderzoek van het materiaal, waren zeven patronen die getypte tekst bevatten geschikt om gelabeld en getraind te worden. Alle patronen bevonden zich linksboven in de pagina, meestal onder het documentnummer, en ze werden over het gehele materiaal vaak herhaald. Om een goed model te maken, werd elk patroon handmatig opgezocht en gelabeld in Transkribus met behulp van de "Add text region tool". Het doel was een model te trainen dat met succes bundels met een datum erop en de items in die bundels kon identificeren. Daarom werden twee verschillende structuurtypes gecreëerd: "Niveau1" en "Niveau2". Er werden drie patronen gekozen om te worden getraind voor Niveau1 en vier voor Niveau2.

In een poging om optimale resultaten te bereiken, zijn zes modellen getraind met telkens andere variaties. Drie modellen zijn getraind met alle zeven patronen en de rest met vier ervan. Deze experimenten waren nodig om de geschiktheid van de gekozen patronen voor de taak te testen. Interessant is dat alle modellen tot verschillende bevindingen leidden. De getrainde modellen waren in staat een aantal van de verschillende patronen en structuurtypes te herkennen, hoewel ze allemaal ook irrelevante gebieden op de bladzijden labelden.

De lege pagina's vormden een belangrijk probleem, omdat alle modellen niet konden interpreteren of deze pagina's enige te herkennen informatie bevatten. Kleine tekst velden vormden ook een probleem, omdat er op elke pagina zoveel waren dat de kans op succesvolle patroonherkenning binnen pagina's afnam. Na elke training moest een speciaal filter worden toegepast om de kleine gebieden te elimineren voor optimale resultaten. Problemen met patroon bezit waren een veel voorkomend moeilijkheid, omdat op de meeste pagina's die geen patronen bevatten, het model linksboven willekeurige regio's aanmaakte. Er waren ook problemen met de pagina's die geen patroon bevatten, aangezien de modellen de trainingspatronen op deze pagina's ten onrechte detecteerden. Dit is geen toeval aangezien de linkerbovenhoek van de pagina's de plaats was waar zich gewoonlijk patronen bevonden. Dit bracht alle modellen in verwarring bracht omdat zij alleen in dat deel van de pagina naar patronen zochten. Bovendien deden zich in alle modellen afwijkingen voor met betrekking tot talrijke regio's in de gebieden waar zich zegels en tekeningen bevonden. Ten slotte was het belangrijkste probleem meervoudige etikettering van hetzelfde patroon, maar met verschillende structuurtypes. Sommige modellen hadden moeite om te onderscheiden in welk structuurtype elke pagina thuishoorde, of de scan een pagina was van een dagbundel, een item binnen een dagbundel of geen van tweeën.

Na uitvoerig experimenteren en deskundige begeleiding van Transkribus bij het oplossen van de problemen, is besloten een laatste model te trainen waarin alle kennis die we hebben opgedaan met het trainen van P2PaLA modellen werd samengevat. Het P1 model, dat getraind werd met het totaal van 21.247 scans en vijf van de zeven patronen, was de meest onderscheidende. Deze keer werd een speciale dataset voor lege pagina's gemaakt, omdat veel van de onnauwkeurigheden van de modellen zich bij dergelijke pagina's voordeden. Vervolgens is het resultaat geëxporteerd naar een Excel-bestand en handmatig geëvalueerd. Alle dubbele structuurtypen werden verwijderd en vergeleken met de correct geëtiketteerde gegevens van 15 willekeurig gekozen inventarisnummers van de 47 die oorspronkelijk op de juiste manier gelabeld waren. Het aantal dubbele structuurlabels dat uit het geëxporteerde bestand werd verwijderd, loopt op tot 4.063. Iets wat duidelijk maakt dat de nauwkeurigheid van het model om structuurtypes te labelen tekort schiet. Aan de andere kant waren de resultaten van de scans die slechts één structuurtype bevatten tamelijk juist:

  • Het herkennen van dagbundels (Niveau1) was 31,8% van de resultaten onjuist en 68,2% correct.

  • Het herkennen van Items binnen de dagbundel (Niveau 2) was 30,8% van de resultaten onjuist en 64,2% correct.

Uit dit experiment kunnen dus enkele conclusies worden getrokken:

  • Planning is essentieel voor het succesvol trainen van dergelijke modellen.

  • Het handmatig labelen van de scans maakt het trainingsproces moeilijk en tijdrovend.

  • Bij de training van P2PaLA-modellen moeten gebruikers behalve tekst ook andere elementen in aanmerking nemen.

  • Afwijkingen tijdens het trainingsproces kunnen de betrouwbaarheid van de modelresultaten in gevaar brengen.