Inleiding Archiving by Design
Archiving by design De inleiding van Erik Saaman over archiving by design kon tijdens het startwebina...
20 september 2016 stond niet alleen in het teken van Prinsjesdag, terugkerende paralympiërs en vertragingen op het spoor door koperdiefstal. Het was ook de dag waarop bij het Nationaal Archief (NA) in Den Haag de kennisbijeenkomst "taal- en spraaktechnologie voor de archiefsector" plaatsvond. Deze door NA en de stichting Nederlandse Organisatie voor Taal- en Spraaktechnologie (NOTaS) georganiseerde bijeenkomst had als doel het gezamenlijk verkennen van de raakvlakken van de archiefsector met taal- en spraaktechnologie (TST).
NB: De links naar de presentaties staan onderaan dit verslag, en klik hier voor het verslag van NOTaS.
Afdelingshoofd Kennis en Advies Wim Westland verwelkomde de 30 aanwezigen van o.a. het NIOD Instituut voor Oorlogs-, Holocaust- en Genocidestudies, de Koninklijke Bibliotheek, het Instituut voor Nederlandse Lexicologie, de Tweede Kamer der Staten-Generaal, het Historisch Centrum Overijssel, NOTaS en NA. Hij legde de lat meteen hoog door zich hardop af te vragen wanneer we aan Siri c.s. vragen kunnen stellen over archiefcollecties.
Onderzoeker Suzan Verberne van de Radboud Universiteit had de lastige taak haar gemêleerde publiek uit te leggen hoe tekstclassificatie werkt. Het lukte haar uitstekend. Na eerst haar publiek te hebben ingezet als menselijke spamherkenner, liet ze zien hoe computers kunnen leren binaire, multi-class- of multi-labeltaken uit te voeren. Een belangrijke voorwaarde hiervoor is veel en goede voorbeelddata. Veel, want “there’s no data like more data”, en goed, omdat de datakwaliteit vaak afhangt van de deskundigheid en inter-rater agreement van menselijke experts. Wie een probleemdefinitie en voorbeelddata heeft, kan desgewenst zelf met opensourcesoftware experimenteren, bijvoorbeeld met de Scikit-learn machinelearningtools in de programmeertaal Python.
Namens het NA legde Remco van Veenendaal vervolgens uit, welke raakvlakken het NA al heeft met TST. Hij deed dit aan de hand van het records continuüm: handschriftherkenning bij creatie, e-discovery bij organisatie, innovatief archiveren bij opslag, en zoeken bij toegang. Vooral bij zoeken en vinden kan (meer)talige intelligentie nog veel meerwaarde opleveren. Waarom moet je bijvoorbeeld eerst het Nederlands beheersen, voordat je iets in www.gahetna.nl kunt vinden? Waarom vinden Archives Portal Europe en Europeana geen "swan" en "cygne", als je "zwaan" zoekt?
Dennis de Vries van Gridline presenteerde WoordenlijstBeheer als toepassing voor archiefterminologie. Kies de juiste termen bij het schrijven van teksten, koppel uniforme terminologie aan documenten t.b.v. de classificatie, en maak archieven beter doorzoekbaar a.d.h.v. semantiek, door te kunnen zoeken op basis van synoniemen en concepten. Zelfs voor het extraheren van termen uit documenten, en het corrigeren van te moeilijk taalgebruik, zijn toepassingen beschikbaar.
Ook Arjan van Hessen van o.a. Telecats, Universiteit Twente en Universiteit Utrecht zoekt het in semantiek. Bij het doorzoekbaar maken van gefilmde debatten van de Staten Generaal met behulp van spraakherkenning, is letterlijk strings matchen passé. Semantisch zoeken, en de resultaten presenteren op volgorde van relevantie is nú. Kunstmatige intelligentie die kan zoeken op basis van begrip heeft de toekomst: wat werd er met de vraag bedoeld, en welk antwoord past daar het beste bij?
Andere toekomstmuziek liet Esther Judd van ReadSpeaker horen: gepersonificeerde computerstemmen. Met opensourcesoftware voor statistische parametriche spraaksynthese in deep neural networks laat ReadSpeaker tekst-naar-spraakstemmen lijken op menselijke sprekers. Kan het NA binnenkort inderdaad een op Joop den Uyl lijkende computerstem teksten laten voorlezen? Aan de voorbeelden te horen lukt dat al heel redelijk: beluister de 4 geluidsbestanden in dit ZIP-bestand.
Tijdens de lunch is volop nagepraat en zijn er tussen verschillende aanwezigen afspraken gemaakt om een en ander verder uit te werken. Voor wie daarna niet verzadigd was met informatie, was er in de naastgelegen zaal de gelegenheid om een aansluitende studiemiddag bij te wonen over Linked Data.
Afgaande op de spontane positieve feedback van deelnemers, hebben NA en NOTaS een welkome, interessante kennisbijeenkomst georganiseerd. Het samen verkennen van de raakvlakken van TST en de archiefsector is geslaagd. Wie nog geen afspraken voor vervolgoverleg heeft gemaakt, en daar wel behoefte aan heeft, kan zich melden bij NOTaS (info@notas.nl) en/of het NA (remco.van.veenendaal@nationaalarchief.nl).
“Mijn complimenten voor het boeiende programma en de geweldige opkomst vanuit de archiefwereld. Bij de bezoekers die ik sprak viel me op dat ze allemaal erg onder de indruk waren en de bijeenkomst bijzonder nuttig vonden.” - Oele Koornwinder, Gridline.
Links naar de presentaties:
Tekstclassificatie (Suzan Verberne, Radboud Universiteit)
NA en TST (Remco van Veenendaal, NA)
WoordenlijstBeheer (Dennis de Vries, Gridline)
Ontsluiten kamerdebatten (Arjan van Hessen, Telecats)
Personificeren van stemmen (Esther Judd, ReadSpeaker)