Reconstructie van een verijdelde slavenopstand met behulp van automatische handschriftherkenning en text mining

  • jun 2020
  • Milo van de Pol
  • ·
  • Aangepast 28 jun
  • 1
  • 31
Milo van de Pol
Automatische Tekst Herkenning
  • Harm Pieters
  • Violet
  • Nico Vriend
  • Liesbeth Keijser
  • Marco Roling

Historisch bronnenonderzoek is geweldig interessant, maar is intensief en vereist kennis van oude handschriften. Veel historici dromen er dan ook van dat ze met enkele drukken op de knop moeilijk leesbare handschriften kunnen transcriberen en doorzoeken. Inmiddels is het al een tijdje mogelijk om met behulp van speciale programma’s onderzoek doen in gedrukte teksten. Recentelijk heeft ook de zogenaamde Handwritten Text Recognition-techniek (HTR) een flinke sprong vooruit gemaakt. Dat maakt het mogelijk om ook handschriften uit verschillende tijdvakken en in verschillende talen door de computer te laten transcriberen. Het Nationaal Archief heeft ruim een jaar geleden besloten deze HTR-techniek te gaan gebruiken voor zijn collectie. In samenwerking met het Noord-Hollands Archief en verschillende Regionale Historische Centra is het Nationaal Archief begonnen aan een project om automatisch transcriberen van grote hoeveelheden gescand archiefmateriaal mogelijk te maken. Dit gebeurt samen met het READ coop-consortium van de Universität Innsbruck. Deze levert hiervoor de transcriptiesoftware ”Transkribus”. Dit project resulteerde in een heel goed bruikbaar transcriptiemodel voor notariële en VOC-archieven, het zogenaamde IJsbergmodel.[1] Het Nationaal Archief wil de transcriptiesoftware gebruiken om transcripties van handgeschreven archiefstukken op een speciale website te tonen en het mogelijk maken om te zoeken in de transcripties. Er komt verder een optie om transcripties te downloaden, zodat ze ook met andere tools doorzocht kunnen worden. Dat zou wellicht het werk van de onderzoeker een stuk eenvoudiger kunnen maken. Om uit te zoeken de Transkribustranscripties en text mining kunnen worden ingezet bij onderzoek, is voor dit artikel de proef op de som de genomen met een kleine case study. Hierbij is gebruik gemaakt van de ingekomen VOC-missiven van de Banda-eilanden. Uit de Generale missiven bleek dat er in 1710 onder de slaafgemaakten een poging tot een opstand was op Banda Neira.[2]Kunnen we de oorzaak hiervan achterhalen met behulp van de missiven? De ‘traditionele’ manier om deze vraag te onderzoeken zou zijn om het bronnenmateriaal, in dit geval elf inventarisnummers (ruim 9500 pagina’s aan handgeschreven brieven ), met ingezonden brieven te raadplegen in de studiezaal van het Nationaal Archief. Een klus die normaal gesproken maanden onderzoek zou vergen. Kunnen we nu met behulp van de bovenstaande transcriptie- en textminingtechnieken snel de achterliggende oorzaken achterhalen?

De case study Banda Neira nam een opmerkelijke plek in in het door de VOC overheerste deel van Zuidoost- Azië. Het eiland had een bevolking dat sinds de eerste helft van de zeventiende eeuw voornamelijk bestond uit slaven. De autochtone bevolking was -vanwege hun opstandige gedrag- in 1621 vrijwel volledig uitgeroeid door een VOC-huurlingenlegertje onder leiding van Jan Pieterszoon Coen (1587-1629). Om de lokale nootmuskaatplantages, de zogenaamde perken, draaiende te houden begon de VOC met een grootscheepse invoer van slaafgemaakten uit Madagaskar en Indië. De leefomstandigheden op Banda Neira waren erbarmelijk. Uitbarstingen van de nabijgelegen vulkaan Gunung Api, cyclonen en aardbevingen vernietigden met enige regelmaat zowel de Bandanese nederzettingen als de plantages. De VOC-perkeniers (de plantagehouders) maakten er daarnaast ook nog eens een potje van met hun wanbestuur, schulden, zelfverrijking en onderlinge geweldpleging. Slaven werden zwaar gestraft voor de geringste vergrijpen. De forten Nassau, Belgica en andere versterkingen werden permanent in staat van paraatheid gehouden om de slavenbevolking onder de duim te houden.[3]Het eiland kreeg zo de uitstraling van een strafkolonie. Door de aanwezigheid van zoveel militaire macht kwamen opstandjes onder de slaven nauwelijks voor. Toch was er een poging toe in 1710, die echter snel in de kiem werd gesmoord. Wat dreef hen tot die wanhoopsdaad?

Gezicht op het eiland Banda Neira. Vervaardigingsjaar 1600-1700. Bron: Geheugen van Nederland

Stap 1 van de digitale voorbewerkingOm een beeld te krijgen van de algehele situatie in 1710, zijn voor dit onderzoek tien jaren aan scans van ingekomen missiven voorafgaand aan de poging tot opstand meegenomen, namelijk de inventarisnummers 1622, 1637, 1647, 1674, 1662, 1675, 1690, 1710, 1726, 1742 en 1758 uit de Archieven van de VOC (toegangsnummer 1.04.02). In totaal betrof het zo’n 10.000 scans. Dat is ongeveer 50 GB aan afbeeldingen. De scans zijn per inventarisnummer in Transkribus ingevoerd. Het uploaden van de afbeeldingen duurde niet lang; hoogstens een half uur per inventarisnummer. Vervolgens werden er in Transkribus twee stappen doorlopen. Ten eerste moest Transkribus een zogenaamde layout analyse van de scans maken. Met andere woorden: het programma wordt gevraagd de tekstblokken en tekstrichting op de scans te herkennen en vast te leggen. Gemiddeld had Transkribus voor zo’n layout analyse 2,5 uur per inventarisnummer nodig. In totaal was het programma ongeveer 12,5 uur hiermee bezig: anderhalve dag werk.

Automatische transcriptie De tweede stap was de tekstherkenningsfase. Het programma heeft de keuze uit verschillende transcribeermodellen. Al naar gelang het materiaal dat men wil omzetten naar leesbare tekst kan inmiddels een keuze worden gemaakt uit modellen voor verschillende middeleeuwse en vroegmoderne handschriften en uit verschillende talen. In dit geval werd gekozen voor het IJsbergmodel, vanwege de overeenkomst met de VOC-handschriften die voor het model zijn gebruikt. De transcriptiefase in Transkribus duurde langer dan de lay-out fase. Gemiddeld was het programma per inventarisnummer zo’n 4,5 uur bezig met analyseren en transcriberen. Voor de elf inventarisnummers met ingekomen missiven was het programma dus ongeveer een werkweek bezig. De door Transkribus gegenereerde transcripties waren goed, maar nooit 100% accuraat. Er was sprake van een kleine foutmarge ( ongeveer vijf à acht procent op karakterniveau). Als je in de transcripties op woorden wilt zoeken, zou je in principe door een foutieve transcriptie kans lopen treffers te missen. De ontwikkelaars van Transkribus proberen dit op te lossen met behulp van Keyword spotting (KWS, zie onderstaande afbeelding). Dit is een probabilistisch algoritme dat bij zoeken op woord min of meer voorspelt welke treffers in aanmerking komen (ook al zitten er fouten in de transcriptie). Transkribus biedt dus zeker de mogelijkheid te zoeken op woorden in de transcripties, maar om uitgebreid onderzoek in de transcripties te kunnen doen is het handiger om over te stappen op een text mining tool.

Keyword spotting in Transkribus

Stap 2 van de digitale voorbewerkingIntussen is er een breed scala aan open source text mining toolsbeschikbaar.[4] Sommige software dient echter eerst ‘getraind’ te worden. Dat vereist enige programmeerkennis. Daarom is voor dit onderzoekje gebruik gemaakt van het gebruiksvriendelijke platformVoyant Tools van de universiteit van Alberta.[5] Dit platform biedt een breed scala aan tekstanalysemiddelen, die erg praktisch zijn voor het geesteswetenschappelijk onderzoek. Denk daarbij aan zoeken naar woordcorrelaties en collaties, contextweergave en vele visualisatiemogelijkheden. Om text mining toe te passen in de Banda-transcripties moesten de bestanden met transcripties eerst gedownload, geordend en ‘geschoond’ worden. Door de teksten te ordenen werd het mogelijk een chronologisch overzicht van de teksten en de daarin genoemde gebeurtenissen te verkrijgen. De oplossing hiervoor was eenvoudig: de bestandsnamen van de tekstbestanden laten voorafgaan door het bijhorende jaartal. Voyant ordende vervolgens zelf de bestandsnamen in chronologische volgorde.Verder was het essentieel om alle missiven die niet uit Banda kwamen (bijvoorbeeld uit Amboina of Ternaten) uit de tekstbestanden te verwijderen. Dit om te voorkomen dat de tekstdatabase geen false positives (een treffer die ten onrechte positief is) zou opleveren wat betreft termen die betrekking hebben op gebeurtenissen op andere eilanden. Niet alleen op de Banda-eilanden vonden namelijk slavenhandel en opstandjes plaats.Na het hernoemen en opschonen kon het uploaden naar Voyant plaatsvinden. Voyant creëerde zo een gezamenlijk corpus van de elf inventarisnummers, een bestand van ruim een half miljoen woorden.

Text mining van de missiven Het Voyant-platform presenteert bij het inladen van het corpus meteen een aantal tools met daarin de eerste ‘bevindingen’ van de software. Zo laat Voyant de meest voorkomende woorden zien in zowel grafiekvorm als Word Cloud . Onmiddellijk vallen in dit geval twee vaak voorkomende woorden in het corpus op: “slaven” en “kinderen”. Dat het woord “slaven“ in de missiven vaak werd gebruikt lag voor de hand: de hele economie op de Banda-eilanden draaide om slavenarbeid. Het vaak voorkomen van het woord “kinderen” is niet direct duidelijk. Dit valt alleen op te lossen met close reading in de transcripties te zoeken naar de context waarin deze woorden voorkomen. Dat levert resultaat op. In de meeste gevallen blijkt het om de kinderen van slaven te gaan. Er is dus een correlatie tussen de twee meest voorkomende woorden in het corpus. Dit relatief onschuldige woord verwijst dus eveneens naar de slavernijpraktijken op Banda...

Word Cloud in Voyant Tools

Zoeken op woord en woordcombinatiesAangezien het de bedoeling is om te zoeken naar oorzaken voor de opstand op Banda Neira in 1710, ligt het voor de hand om eerst te zoeken op woorden die wellicht kunnen voorkomen in samenhang met een complot. In eerste instantie is gezocht op woorden als “slaven” en begrippen zoals “lijfeigene”, “weglopers”; “opstand”; “complot”; “perken”, “perkeniers” en “straf”. Wat meteen opvalt, is een duidelijke fluctuatie is in het gebruik van het woord “slaven” (zie onderstaande grafiek). Zo is er vanaf 1700 tot en met 1702 een neergang te zien in het gebruik van het woord. Vanaf 1703 tot en met 1706 is er weer een flinke stijging van het gebruik van de term, waarna het in de jaren daarna weer daalt.

Fluctuatie in gebruik woord

Een eerste poging om met behulp van veel voorkomende woordcombinaties met het woord “Slaven” en andere termen te zoeken naar een aanwijzing voor de dips in de grafiek levert echter weinig op (zie afbeelding hieronder). Er duiken in dat geval slechts voor de hand liggende correlaties op, zoals “vrouwen”, “mannen”, “perken” en “kinderen”. Er zit niet anders op dan de teksten zelf met close reading (analyse van de teksten) door te nemen om te zien waarom het gebruik van het woord “slaven” door de jaren zo fluctueert. Met andere woorden: de historicus komt er nu zelf aan te pas.

Vaak voorkomende combinaties met het woord

Close readingClose reading is een intensieve klus, maar levert wel resultaat op. De historicus is dus nog steeds niet overbodig. Zo blijken er in missiven uit 1700 bij het woord “slaven” veel verwijzingen naar grote sterfte te zijn: “sedert de laatste visite 76 slaven overleden”, “ sedert de laatste visite 28 mansslaven, 22 vrouwe, 3 slaven kinderen affgestorven”. In de brieven van 1701 nog meer berichten: “manquement van gesonde slaven”, “sterfte onder de slaven” en “ in de oegsten, een groote ziekte en sterfte onder haer ontstaen”, met veel veel “schrik onder de slaven” tot gevolg. De oorzaak van de massale sterfte lag bij “heete koortsen, kinderpokjes, roode sloop en andre lichaemsqualen”. Wellicht dat deze verwijzingen een verklaring zijn voor de afname van verwijzingen naar “slaven”.

Voorkomen van woord

Vooral de kinderpokken hadden desastreuze gevolgen voor de slavenpopulatie, zoals te lezen viel in een missive uit 1704: “alhoewel er zedert eenigen tijt weijnigh verkogt ofte gekogt zijn, ten aensien vande kinderpokjes, die aleen tijt langh hier in de wandelingh zijn geweest, en niet alleene veel slaven insonderheijt nieuw aengekomene maer ook veel vrije voornamentlijck kinderen, ten grave hebben geruckt.” De grote sterfte en lijden onder kinderen, familieleden en vrienden moet enorm traumatisch zijn geweest voor de Bandanese slaven. Dat kan verklaren waarom een andere term, namelijk “weglopers” juist gedurende deze periode zo vaak voorkomt.

Close reading in Transkribus

Epidemieën en mislukte oogstenDe epidemie was eveneens traumatisch voor de perkeniers, maar dan om een geheel andere reden. Plotseling zagen de plantagehouders hun productiecijfers kelderen. Door een gebrek aan bruikbare slaven werd er immers minder oogst binnengehaald en verwilderden de plantages. Aan het vaderland meldden zij: “soo werd den oegst daer om met seer strekt vemindert en ware een groote ziekte of sterfte” en “dat de notenbomen op dit Eijland, meest in halvwassen bestaande, in verscheijde perchen te digt bij den anderen beplant staan”. De perkeniers -die nu geheel “buijten staet”waren- hadden echter “geen genoegsame manschap of slaven aen de hand”. In de periode 1702-1706 nam de opbrengst van nootmuskaat snel af, wat nog werd verergerd door zware cyclonen in 1702, 1703 en 1704 die veel bomen deed ontwortelen: “sware storm vlagen, waer door al een goede parthij specerijen en andre groote bomen, uijt de grond gerukt zijn geworden.”Uit de missiven bleek dat -om het tekort aan slaven zo snel mogelijk te compenseren- voerden de perkeniers vanaf 1703 massaal nieuwe werkkrachten in. Tot en met 1706 werd er dan ook steeds meer melding gemaakt van grote ladingen slaven: “UweEdeler (de Heren 17 van de VOC) goetheijt aen de perkeniers bewesen, met het invoeren van 200 stux westersche slaven te accorderen”, “Van Macassar hier terug gekomen met een rijslading en 20 stux mans slaven” en “48 stux kloeke mansslaven hier in de provintie aengebragt”.

Close Reading in Voyant Tools

Grote invoer van tot slaaf gemaaktenVanaf 1706 lezen we in de missiven -nog steeds zoekend op het woord “slaven”- dat de fikse aanvoer van slaafgemaakten noodgedwongen leidde tot regulatie van de populatie: men begon inventarisaties, lijsten en rapporten te maken van de slaven op de plantages en in de huishoudens van de perkeniers. Het tekort aan slaven bleef echter nog jarenlang nijpend. Ene Hans Caspers klaagde in 1708 dat door het slavengebrek de perken “te digt beplant” zijn en de “verplanting der jonge boomtjes nalatigh gebleeven”. Dit ‘probleem’ voor de perkeniers hield overigens ook na 1710 stand. Zo meldde de gouverneur Reinier de Klerk (1710-1780) dat door de epidemieën van 1693, 1702 en 1715 zo’n 1529 slaafgemaakten geïmporteerd moesten worden.[6] OnrustOpvallend genoeg is er in Voyant te zien dat er vanaf 1707 een toename is van de woorden “weglopers”en “gevluchten” (zie onderstaande grafiek). Een directe oorzaak is niet te vinden in teksten, maar uit het voorgaande valt wel een goeie aanname te maken: de zware werkdruk, slechte leefomstandigheden en vooral de continuele aanvoer van tot slaaf gemaakten leidden tot onrust en opstandigheid. Zo zette het structurele gebrek aan slavenarbeiders de perkeniers aan tot het onder zware druk zetten van hun slaven op de plantages om toch een ‘redelijke’ productie van nootmuskaat tot stand te brengen. De nieuwe slaven waren niet gewend aan het miserabele leven op Banda Neira. Zij waren bovendien ontheemd, beroofd van hun familie en moesten zich zien te redden in een vreemde omgeving, te midden van een snel groeiende, onsamenhangende groep Indische en Afrikaanse slaven. De sociale onrust onder deze grote groep nieuwkomers moet groot zijn geweest. Het is dan ook niet vreemd om aan te nemen dat de perkeniers met hun dorst naar meer productie (en dus naar meer slaafgemaakten) zo de kiem voor een opstand hebben gelegd.

Fluctuatie in gebruik van woorden als

De verijdelde opstand Op 16 februari 1710 culmineerde de onvrede onder de slaafgemaakten in een poging tot een opstand. Zoeken op het woord “complot en “gecomplotteerd “ leidt in Voyant onmiddellijk naar de volgende tekst uit een missive van begin 1710:[7] “[…] te weten dat er eenige ’s Comp[agnies] slaven gecomplotteerd hadden, om nog die nagt met het opkomen van de maan, onder pretext van een correcerre [opstootje] die zij ten dien eijnde daar toe klaar hadden gemaakt door de negorije spelende om te voeren, met brandstigten der huijsen, en moorden van alle die geene die hun voorquamen, alles in confusie te brengen, en dus hun meester makende, met het een of het ander vaartuijg uijt dese provintie te fugeeren.”De destijds dienstdoende gouverneur Andries van Eps (?-1721) werd snel gealarmeerd en liet de opstandelingen arresteren. Opvallend genoeg waren onder de opstandelingen ook mardijkers (vrijgemaakte slaven) en zelfs een slaaf van de gouverneur:“[… ]waar op ten dien selven dage op het berigt dat den gouverneur daar van gekreegen heeft, twee ’s Comp[agnie]s slaven uijt het quartier met gem[elte] correcorre gehaald, en in verseekeringe geset zijn, terwijle den gouverneur die nagt de burger officieren het goede wagt houden, en hun patrolje te doen versterken gerecommandeert had, en hij des anderen daags met zijn familie, binnen dit casteel, in des gouverneurs wooninge die vooraf van zijn gebreken versien geworden zijnde, in getrocken is, zoo zijn ook de voorsz[eide] twee in hegtenis gestelde’s Comp[agnie] slaven geexamineert, dewelke nog seven ’s Comp[agnie]s lijfeijgenen een dito van den gouverneur en vijf vrijluijden waaronder ook geweest zijn.”De straffen voor de slaven waren (zoals gewoonlijk) streng: “[…]zijn onder ’s Comp[agnie]s Lijfeijgenen drie der principaalste belhamers gebrandmerkt en nevens Loeka en Moijachij strengelijk op de gerigtsplaats gegeselt, de andere vier ’s Comp[agnie]s slaven en die van den gouverneur mitsgaders de resterende drie vrijluijden, voor de tronk des Casteels mede strengelijk gegeselt, alle in de keeten geklonken, de slaav van den gouverneur om zijn meester thuijs gesonden en d’ andere, om zodanig hun leven Lang aan ’s Comp[agnie]s gemeene werken te arbeijden.”Geseling, verbanning en brandmerking was hun deel. Het lot van de slaaf van de gouverneur blijft onvermeld.

Voorkomen van

BevindingenBovenstaand onderzoekje naar de verijdeling van een complot in 1710 op Banda Neira maakt duidelijk dat automatische handschriftherkenning (HTR) het historisch onderzoek enorm zal veranderen. Bronnenonderzoek duurt normaal gesproken maanden, zo niet langer. Dankzij Transkribus en text mining tools zoals Voyant is dat terug te brengen tot dagen en weken. Er zijn wel enkele kanttekeningen te maken: de transcripties zijn niet 100% nauwkeurig. Er bestaat het risico dat je bij zoekopdrachten een deel van cruciale termen en namen mist. Dit kan een probleem zijn bij namen. Alleen al het woord “Banda” werd door Transkribus enkele malen verkeerd omgezet, bijvoorbeeld als “Landa”, “Penda” of “Emda” Teksten handmatig controleren op fouten blijft dus cruciaal. Toch zijn de transcripties zo goed dat ze gebruikt kunnen worden voor kwantitatief onderzoek. Transkribus biedt die functionaliteit maar in beperkte mate. Dat is logisch; het programma is immers vooral gericht op transcriptietechniek. Om grote corpora aan transcripties te kunnen doorzoeken ten einde context, correlaties en patronen in de transcripties te vinden, was het voor deze keer noodzakelijk uit te wijken naar andere software, in dit geval Voyant tools. Dit platform is gebruiksvriendelijk maar biedt weer niet de mogelijkheden van topic mondeling(het herkennen van thema’s in de transcripties) en Named Entity Recognition(het herkennen van namen en andere entiteiten). Het automatisch herkennen van onderwerpen zat er dus niet in (De tool van het NA zal wel NER en topic modeling gaan bieden.). Dat betekende in dit geval opnieuw handmatig zoeken naar de context waarin woorden voorkwamen. Toch hielp Voyant bij het snel herkennen van mogelijke achtergronden van de verijdelde opstand. Simpelweg zoeken op woordfrequentie, zoals bij het woord “slaven”, leverde al snel voldoende aanwijzingen naar mogelijke oorzaken van de situatie op Banda Neira in 1710. Kortom: HTR en text mining zullen veel tijdwinst opleveren, maar maken de onderzoeker nog niet overbodig. Naar verwachting kunnen historici aan het eind van de eerste helft van 2021 zelf via het Nationaal Archief – en later bij andere archiefinstellingen- ondervinden hoe snel zij grote hoeveelheden transcripties van bronnenmateriaal met behulp van bovenstaande technieken kunnen doorzoeken en onderzoeken. Wie weet wat zij zullen ontdekken in de enorme berg tot nu toe onontsloten bronnen.

NB: voor het bekijken van de afbeeldingen op ware grootte is het handig deze te openen in een nieuw tabblad (rechtermuisknop-optie "open op nieuw tabblad")

TekstcorpusDe dataset met de teksten van de genoemde missiven is nog steeds te raadplegen: https://voyant-tools.org/?corpus=06135fb9dd6bbe0994a2cdb5d770ac86&panels=corpusterms,reader,trends,summary,contexts

De volledige set transcripties VOC-archieven is te vinden op Zenodo: https://zenodo.org/record/3884501#.Xunx42gzZPY

Literatuurlijst
W. Hanna, Indonesian Banda Colonialism and Its Aftermath in the Nutmeg Islands (Philadelphia, 1978)
J. van de Berg, Het verloren volk Een geschiedenis van de Banda-eilanden (Den Haag, 1995)
M. van Rossum, Kleurrijke tragiek De geschiedenis van de slavernij in Azië onder de VOC (Hilversum, 2015)R. Baay, Daar werd wat gruwelijks verricht. Slavernij in Nederlands Indië(Amsterdam, 2015)
P. Hagen, Koloniale oorlogen in Indonesië: Vijf eeuwen verzet tegen vreemde overheersing (Amsterdam 2018) P. van Dam, Beschrijvinge van de Oostindische Compagnie, eerste boek, deel II. 's-Gravenhage: Martinus Nijhoff, 1929 (Rijksgeschiedkundige Publicatiën, no. 68)
M.D. Teenstra, Beknopte beschrijving van de Nederlandsche Overzeesche Bezittingen voor Beschaafde Lezers uit alle standen, uit de beste bronnen en eigen ervaring in Oost- en West-Indiën geput Deel 2( Groningen, 1846), p. 578 W. Ph. Coolhaas, Generale missiven van gouverneurs-generaal en raden aan heren XVII der Verenigde Oostindische Compagnie, deel V I : 1698-1713. (Den Haag, 1976)
[1] Zie: https://noord-hollandsarchief.nl/ontdekken/nhalab/project-transkribus-2
[2] W. Ph. Coolhaas, Generale missiven van gouverneurs-generaal en raden aan heren XVII der Verenigde Oostindische Compagnie, deel V I : 1698-1713. (Den Haag, 1976) p.668
[3] W. Hanna, Indonesian Banda. Colonialism and Its Aftermath in the Nutmeg Islands. Philadelphia, 1978,p. 81.
[4] Zie bijvoorbeeld https://en.wikipedia.org/wiki/List_of_text_mining_software
[5] https://voyant-tools.org/
[6] Hanna, p. 85
[7] De teksten zijn gebaseerd op transcripties gemaakt door Transkribus, met enkele correcties en tekstuele aanpassingen.

Reacties

één reactie, 2 juli 2020
  • Heel cool. En vooruitstrevend. Wat ik me wel afvroeg ... is meetbaar te maken hoe hoog de Word Error Rate is van de HTR transcripties? Er is immers een model gebruikt met een hele beperkte ground truth tov het hele archief. De uitkomst van de massale HTR accepteer je als basis voor onderzoek, maar hoeveel woorden zijn daarin bruikbaar voor een zoekopdracht. Ik denk dat het ook mogelijk moet zijn om een machine te leren welke woorden in digitale tekst ook echt zoekbare woorden zijn en geen gebrabbel. Iets om verder over na te denken?

    Marco Roling

Trefwoorden