Geslaagde verkenning raakvlakken taal- en spraaktechnologie en archieven

sep 2016
Remco van Veenendaal
·
Aangepast jun 2024
521

Kennisbijeenkomst taal- en spraaktechnologie voor de archiefsector

20 september 2016 stond niet alleen in het teken van Prinsjesdag, terugkerende paralympiërs en vertragingen op het spoor door koperdiefstal. Het was ook de dag waarop bij het Nationaal Archief (NA) in Den Haag de kennisbijeenkomst "taal- en spraaktechnologie voor de archiefsector" plaatsvond. Deze door NA en de stichting Nederlandse Organisatie voor Taal- en Spraaktechnologie (NOTaS) georganiseerde bijeenkomst had als doel het gezamenlijk verkennen van de raakvlakken van de archiefsector met taal- en spraaktechnologie (TST).

NB: De links naar de presentaties staan onderaan dit verslag, en klik hier voor het verslag van NOTaS.

Siri

Afdelingshoofd Kennis en Advies Wim Westland verwelkomde de 30 aanwezigen van o.a. het NIOD Instituut voor Oorlogs-, Holocaust- en Genocidestudies, de Koninklijke Bibliotheek, het Instituut voor Nederlandse Lexicologie, de Tweede Kamer der Staten-Generaal, het Historisch Centrum Overijssel, NOTaS en NA. Hij legde de lat meteen hoog door zich hardop af te vragen wanneer we aan Siri c.s. vragen kunnen stellen over archiefcollecties.

College tekstclassificatie

Onderzoeker Suzan Verberne van de Radboud Universiteit had de lastige taak haar gemêleerde publiek uit te leggen hoe tekstclassificatie werkt. Het lukte haar uitstekend. Na eerst haar publiek te hebben ingezet als menselijke spamherkenner, liet ze zien hoe computers kunnen leren binaire, multi-class- of multi-labeltaken uit te voeren. Een belangrijke voorwaarde hiervoor is veel en goede voorbeelddata. Veel, want “there’s no data like more data”, en goed, omdat de datakwaliteit vaak afhangt van de deskundigheid en inter-rater agreement van menselijke experts. Wie een probleemdefinitie en voorbeelddata heeft, kan desgewenst zelf met opensourcesoftware experimenteren, bijvoorbeeld met de Scikit-learn machinelearningtools in de programmeertaal Python.

Records continuüm

Namens het NA legde Remco van Veenendaal vervolgens uit, welke raakvlakken het NA al heeft met TST. Hij deed dit aan de hand van het records continuüm: handschriftherkenning bij creatie, e-discovery bij organisatie, innovatief archiveren bij opslag, en zoeken bij toegang. Vooral bij zoeken en vinden kan (meer)talige intelligentie nog veel meerwaarde opleveren. Waarom moet je bijvoorbeeld eerst het Nederlands beheersen, voordat je iets in www.gahetna.nl kunt vinden? Waarom vinden Archives Portal Europe en Europeana geen "swan" en "cygne", als je "zwaan" zoekt?

Terminologiebeheer

Dennis de Vries van Gridline presenteerde WoordenlijstBeheer als toepassing voor archiefterminologie. Kies de juiste termen bij het schrijven van teksten, koppel uniforme terminologie aan documenten t.b.v. de classificatie, en maak archieven beter doorzoekbaar a.d.h.v. semantiek, door te kunnen zoeken op basis van synoniemen en concepten. Zelfs voor het extraheren van termen uit documenten, en het corrigeren van te moeilijk taalgebruik, zijn toepassingen beschikbaar.

Zoeken met begrip

Ook Arjan van Hessen van o.a. Telecats, Universiteit Twente en Universiteit Utrecht zoekt het in semantiek. Bij het doorzoekbaar maken van gefilmde debatten van de Staten Generaal met behulp van spraakherkenning, is letterlijk strings matchen passé. Semantisch zoeken, en de resultaten presenteren op volgorde van relevantie is nú. Kunstmatige intelligentie die kan zoeken op basis van begrip heeft de toekomst: wat werd er met de vraag bedoeld, en welk antwoord past daar het beste bij?

Toekomstmuziek

Andere toekomstmuziek liet Esther Judd van ReadSpeaker horen: gepersonificeerde computerstemmen. Met opensourcesoftware voor statistische parametriche spraaksynthese in deep neural networks laat ReadSpeaker tekst-naar-spraakstemmen lijken op menselijke sprekers. Kan het NA binnenkort inderdaad een op Joop den Uyl lijkende computerstem teksten laten voorlezen? Aan de voorbeelden te horen lukt dat al heel redelijk: beluister de 4 geluidsbestanden in dit ZIP-bestand.

Linked Data

Tijdens de lunch is volop nagepraat en zijn er tussen verschillende aanwezigen afspraken gemaakt om een en ander verder uit te werken. Voor wie daarna niet verzadigd was met informatie, was er in de naastgelegen zaal de gelegenheid om een aansluitende studiemiddag bij te wonen over Linked Data.