Speel mee met Monk, het zoeksysteem voor gedigitaliseerde handschriften.

  • mrt 2011
  • Verwijderde gebruiker
  • ·
  • Aangepast 27 jun
  • 28
  • 42
Verwijderde gebruiker
KIA Community
  • Christian van der Ven

Ons grote ideaal is het kunnen zoeken, à la Google, in handschriften. Professor Schomaker van de Rijksuniversiteit Groningen ontwikkelt met financiële steun van NWO een zoeksysteem, waarbij gedigitaliseerde teksten doorzocht kunnen worden. Het Nationaal Archief, de Groninger Archieven, het Stadsarchief Leuven en het Gelders Archief dragen bij aan dit project. Thans wordt een gebruikersinterface ontwikkeld door Target Holding bv om de software, Monk genaamd, gemakkelijker bruikbaar te maken.

Het grootste probleem met handschriften is dat ze zo verschillend zijn. De software moet dus elk handschrift aanleren. Dat moet door mensen worden gedaan, door archivarissen en ingewijde, toegewijde vrijwilligers. Om dit te laten zien, en om de software nu al een beetje te helpen leren, is een tijdelijke website beschikbaar voor belangstellenden. Op deze site kun je, als je dat leuk vind, losse woorden transcriberen of, zo als Monk dat noemt: labellen. Je krijgt een woord - of gedeelte van een woord - te zien, in een vakje, en hetzelfde woord gehighlighted in een zin erboven. Gevraagd wordt de suggestie van de software te controleren en te bevestigen of te corrigeren. De woorden komen uit verschillende teksten, die niet voor iedereen leesbaar zullen zijn. Kun je er niets van maken? Geen nood, gewoon een ander woord kiezen.

In het tekstvakje 'Welk woord staat hier?' worden problematische woordafbeeldingen getoond die een correct 'woord-label' behoeven. Verbaas je dus niet als de computer een onzinnig voorstel doet: het geschreven stukje tekst was op dat moment nog te moeilijk voor Monk. Ook krijg je soms een stukje verknipte tekst waar helemaal geen woorden of woorddelen opstaan, maar alleen stokken en staarten van letters, of een losse streep of vouw: gewoon overslaan.

Er is nog enig verschil tussen wat er in het tekstvakje staat en wat er boven in de regel met geel is gehighlighted. Wat in het tekstvakje staat is leidend. Is het een half woord, dan vul je een half woord in. Zijn het twee woorden, dan vul je twee woorden in.

Aan deze website is een spelelement aan toegevoegd. Je kunt smileys verdienen en de scores en topscores worden bijgehouden. Ieder die meedoet krijgt een onchristelijke, maar in ieder geval latijns-achtige dubbele monniksnaam. Je kunt dus je eigen score in de gaten houden.

Thans bevat de database van Monk scans van indices van het Kabinet der Koningin, scheepsjouraneln van een der Admiraliteitscolleges, en van een protocol van de Schepenbank van Leuven.

Nog vragen? Houd je muis stil boven een schermonderdeel en er verschijnt een helptekst. Of je klikt op het grote vraagteken voor een afzonderlijke help-pagina.

En wil je zien wat de resultaten zijn van dit aanleren, ga dan naar de zoekmachine van Monk (link onderaan de webpagina).

Jouw inspanningen van het labelen zijn niet onmiddellijk zichtbaar in de zoekresultaten. Er is heel veel rekenwerk voor nodig om de aanvullingen en correcties effectief te laten zijn. Dat rekenwerk gebeurt 's nachts. Toch zal binnen enkele dagen een zelfde zoekopdracht een beter resultaat opleveren.

Doe mee en leer Monk lezen.

Pas op, zoals elk spelletje is Monk ook licht verslavend!

Op- en aanmerkingen? vermeld ze hieronder.

Reacties

28 reacties, meest recent: 26 februari 2014
  • Bedankt voor deze post, Henny!

    Ik vind het vooral leuk om te zien dat ook in dit geval weer een spelelement wordt ingezet. Ooit zag ik dat bij Google Image Labeler voor het eerst en tegenwoordig gaan alle crowdsourcingsprojecten van zo'n competitief aspect vergezelf. En terecht! :-)

    Als mijn voorstel voor de KVAN-dagen wordt goedgekeurd (sessie over crowdsourcing), dan komt Monk er zeker in. Ik zal dit bericht ook even doorsturen aan alle collega's op het BHIC. En een blogpost zit er vanavond of zo ook nog wel in!

    Christian van der Ven
  • Kan Monk uit de voeten met bijzondere tekens? Dubbele punten lijken in is-gelijk-tekens te veranderen, klopt dat? Of is het helemaal niet de bedoeling om iets anders dan gewone letters in te voeren?

    Verwijderde gebruiker
  • Beste Mariëtte,

    Monk kan overweg met bijzindere tekens, maar zet deze om in ASCII met een toevoeging. De dubbele punt wordt omgezet in een =-teken, de spatie in een underscore. Kijk maar eens op de help-pagina, onder het grotere vraagteken.

    Groeten,

    Henny van Schie Mariëtte van Selm zei:

    Kan Monk uit de voeten met bijzondere tekens? Dubbele punten lijken in is-gelijk-tekens te veranderen, klopt dat? Of is het helemaal niet de bedoeling om iets anders dan gewone letters in te voeren?

    Verwijderde gebruiker
  • Goed dat dit bestaat, lijkt mij. Dit heette vroeger toch ook wel Optical Character Recognition (OCR) ? Of nog steeds ?

    Verwijderde gebruiker
  • zie ook #Optical #Character #Recognition (#OCR) ?

    Kunnen zoeken in huidige leesbare tekst die de zoekwoorden uit handschriften haalt: prachtig toch ?

     

    Verwijderde gebruiker
  • Inderdaad. Ik ben gestopt na 11 smileys... Albert Koevoet zei:

    Inderdaad: verslavend!

    Verwijderde gebruiker
  • Neen, Wim, het lijkt er wel een beetje op, maar technisch zit het wat anders in elkaar. Ik heb zelf ook moeite het te begrijpen, laat staan dat ik het kan uitleggen, maar het heet patroonherkenning, of pattern recognition. Het lukt nog lang niet om op letterniveau te herkennen, vandaar dat er met woorden en woorddelen wordt gewerkt. Wim van den Hoonaard zei:

    Goed dat dit bestaat, lijkt mij. Dit heette vroeger toch ook wel Optical Character Recognition (OCR) ? Of nog steeds ?

    Verwijderde gebruiker
  • De VPRO zal op 22 maart in het programma Labyrint kort aandacht schenken aan Monk.

    Yola, Christian,

    Tijdelijk is een relatief begrip, maar deze site is niet als een permanente bedoeld. Dat betekent dat het webadres kan veranderen, de functionaliteit kan worden aangepast, en zo meer. Het is een proef om te zien of het publiek geïnteresseerd is, of er niet al te onzinnig wordt gelabeld, wat het aantal labels is, dat nodig is om een goed resultaat te krijgen. Ook de omgeving is een testomgeving. Ik verwacht dat de functionaliteit van deze site in enigszins aangepaste vorm wel weer terug zal komen in de meer definitieve gebruikersinterface die nu wordt ontwikkeld.

    Maar een half jaar zal deze site toch wel in de lucht blijven, behoudens de bekende uitzonderingen van het 'plat' gaan de testsite. Maar dat schijnt bij mij zeer bekende gerenommeerde archiefdiensten ook wel eens voor te komen ;-)

    Als eenvoudig voorbeeld van crowd soucring kan dit zeker dienen, ook voor cursisten 23 archiefdingen.

    Verwijderde gebruiker
  • Geweldig dit! Transcriberen doe ik ook als hobby. Een heel groot deel van het Oisterwijkse protocol ligt nog voor mij om door te ploegen. Dit soort van hulpmiddelen zijn natuurlijk van harte welkom.

    Tijdens het uitproberen van de software kwam ik er wel achter dat er nog veel werk te verzetten valt. Voor eventuele vervolgprojecten en doorontwikkelen houd ik mij dan ook van harte aanbevolen. Als we onze oude archieven meer willen laten gebruiken, is dit eigenlijk de enige manier.

    @Henny Zit er een bepaalde massa achter deze pilot? Dus: gebruiken genoeg mensen de software om enig tempo te krijgen, of wil je nog meer promotie? 

    Verwijderde gebruiker
  • Luud,

    Op dit moment geldt: meer is altijd beter. Ook als dat leidt tot foutieve labels. Als in de praktijk blijkt dat dit weinig gebeurt, is er geen inlog- en/of moderatieprocedure nodig. Als het een zooitje wordt, zal dat wel moeten gebeuren. Dan is meer niet altijd beter. Voorlopig verwacht ik alleen maar nette mensen ;-)

    Wat ook nog niet duidelijk is, is de performance. Gisteren was Monk supertraag, en dat is natuurlijk niet bevorderlijk voor het enthousiasme van de deelnemers.

     

    Verwijderde gebruiker
  • @Henny

    Dan ga ik er deze week blogpost aan wagen op het weblog van het archief. Ik steun dit soort initiatieven voor 3000%. De oude bronnen raken zo niet in een verdomhoekje :)

    Verwijderde gebruiker
  • @Henny

    Nog wat anders. Het beloningssysteem bestaat volgens mij uit hetzelfde lezen wat anderen ook gelezen hebben. Dat is niet bepaald wat ik een beloning vind. Ik snap dat het voor de software goed is om te weten dat een transcriptie echt goed is, maar op deze manier zou je ook fouten kunnen stimuleren. Als ik namelijk dezelfde fout overneem die een ander al gemaakt heeft, dan krijg ik een smiley.

    Ik heb dit natuurlijk niet uit den treure getest, maar die associatie kreeg ik wel bij verzamelen van smileys :)

    Verwijderde gebruiker
  • Luud,

    Dat is inderdaad een goed punt, maar lastig op te lossen. De software weet alleen of het een maagdelijk patroon is of een waar een label aanhangt. Of dat label goed is of niet, kan de software niet beoordelen. Het gedrag dat je niet wilt, kan zo bevorderd worden, evenals het overslaan van alle woorden waaraan nog geen label hangt. Dat laatste kun je inschatten als Monk een onzinnige suggestie geeft. Maar ik zie voorlopig geen andere oplossing. Op 22 maart komt de VPRO in het programma Labyrint met een item over crowd sourcing (@Christian, let op!!). Monk wordt dan als voorbeeld gebruikt. Pas als echt veel mensen zich hiermee gaan bezighouden, dan blijkt of e.e.a. echt gaat werken. In een beschermde omgeving met gemotiveerde mensen zal het allemaal wel goed gaan. Want ons gaat het natuurlijk niet om de smileys.

    In het echie kan je je voorstellen dat je bijvoorbeeld gratis scans kunt verdienen. Dan wordt het wel zaak dat onwenselijk gedrag niet beloond wordt. Maar dit is natuurlijk geen probleem van Monk, maar veel eerder een van crowd sourcing in het algemeen.

    Verwijderde gebruiker
  • @Luud @Henny: In mijn blogpost over Monk heb ik ditzelfde punt aangestipt. Daarin heb ik gezegd dat ik het gek vind dat je een suggestie krijgt - het doet afbreuk aan het spelelement en het werkt 'puntenjagers' eenvoudig in de hand. Ik zou dus zeggen: geen suggestie laten geven door Monk. Op zo'n moment kun je namelijk wél een punt geven als jouw 'mening' dezelfde is als van iemand anders. Want je weet dit niet vantevoren, dus kunt hierop ook je 'mening' niet aanpassen. Een smiley is dan een teken van: "Hé, een ander heeft dit blijkbaar ook al eens ingevuld, dus grote kans dat het klopt. Puntje erbij!" (Nog niet ideaal, maar wel beter. Probleem blijft natuurlijk dat je punten laat scoren voor uitkomsten waarvan je niet weet of ze goed zijn. En dat er altijd iemand de eerste moet zijn die een 'mening' geeft.)

    Over beloningsvormen in alle soorten en maten, en vooral het effect daarvan, hoop ik ook nog zinvolle dingen te zeggen tijdens mijn presentatie over crowdsourcing die ik (hopelijk) tijdens de KVAN-dagen ga geven. Even afwachten of 'de organisatie' me selecteert. ;-)

    Overigens is het niet zo dat crowdsourcing alleen werkt als er heel veel mensen meedoen. Er bestaat ook zoiets als 'nerd-sourcing': vind die paar fanatiekelingen die samen nóg veel meer werk verzetten. Dit soort 'nerds' heeft vaak een intrinsieke motivatie (terwijl voor 'crowds' andere beloningsvormen vaker motiveren).

    Christian van der Ven
  • Leuk dit Monnikkenwerk. Ik zet hem uit in de organisatie en bij onze vrijwilligers.

    Verwijderde gebruiker
  • Ik heb er even mee zitten spelen, maar stuitte herhaaldelijk op woorden die slechts gedeeltelijk gemarkeerd waren, soms zelfs horizontaal! In dergelijke gevallen valt er weinig te leren, tenzij ik iets in de funtionaliteit over het hoofd heb gezien.

    Verwijderde gebruiker
  • Ook ik zou graag meer referentietekst zien, plus de mogelijkheid het voorbeeld (tijdelijk) te bewerken (vergroten, zwart-wit weergeven).

    En onduidelijk is of je nu alleen het getoonde deel van een woord moet overzetten, of het gehele woord?

     

    Ik zou alle archiefdiensten vragen MONK op hun website aan bezoekers voor te schotelen! Mèt oproep om er mee

    aan de slag te gaan.

     

     

    Verwijderde gebruiker
  • Wil me graag even aansluiten bij de laatste twee reageerders; ik heb behoefte aan meer referentietekst, m.n. bij de Leuvense bron en vind het lastig dat je soms slechts stukjes van woorden moet transcriberen. Wil dan graag met de gele marker over het hele woord gaan en dat transcriberen. Juist als er een paar letters van het ene woord staan en een paar van het volgende zou het programma ervan moeten kunnen leren hoe de correcte woordindeling is.  

    Maar voor even is het wel leuk om te doen.

    Verwijderde gebruiker
  • @Peter: Het automatisch herkennen van woorden als eenheden is nog erg lastig. De software berekent de inktintensiteit op bepaalde plaatsen en bepaalt dan waar een label moet komen. Als de kwaliteit van de scan wat minder is, bijvoorbeeld door een ietsje scheef te staan, gaat het meteen fout. Ook als een schrijver woorden niet aaneen schrijft of te dicht op elkaar gaat het moeilijk. Het is duidelijk: softwarematig moet dit beter gemaakt worden.

    @Jan en Jan: Jullie wensen zijn helder. Zeker als je wat serieuzer aan de slag gaat, is deze gebruikersinterface niet voldoende. Dat wordt in de uiteindelijke versie ook beter: dan zullen er meer regels zichtbaar moeten zijn. Het corrigeren van de uitsnede zal ook mogelijk worden, door zelf een woord exact te markeren en deze dan te labelen. Al deze extra functionaliteit zal wel achter een registratie komen, teneinde het modereren mogelijk te maken.

     

    De functionaliteit die nu zichtbaar is, is vooral bedoeld om reacties los te krijgen van jullie, en dat lukt aardig. Maar ook te zien hoe het grote publiek hierop reageert. Duidelijk is natuurlijk nu al dat de Leuvense bron met Latijnse teksten hiervoor niet echt geschikt is. Temeer niet daar we ook willen dat niet alleen de patroon letterlijk worden gelabeld, maar ook dat er aangegeven kan worden dat een patroon een afkorting is en wat die afkorting betekent.

    Verwijderde gebruiker
  •  

    Aansluitend op de verzoeken voor meer tekst (regels), als het echt moeilijk wordt is een veel toegepast hulpmiddel om dezelfde (niet herkenbare) letters of lettercombinatie verderop in het document te zoeken in een woord waarbij wel de letters herkend kunnen worden. Ook is de context van de gehele tekst vaak bepalend voor de betekenis van het woord.

    Vanuit het enkele aangeboden woord moet de deelnemer het gehele document kunnen raadplegen. Wat dan weer uitgebreid kan worden door het programma met een markering van alle andere woorden in de tekst die het programma ook niet kent.

    Nog een stap verder is dan niet alleen het woord wordt herkend maar ook een betekenis is op te vragen.

    Maar ook weer niet te veel getreurd het begin is er.

    Cees

     

    Verwijderde gebruiker
  • @Leo: Goed punt. Maar tegen de tijd dat Monk en soortgelijke software dusdanig is doorontwikkeld, dat alle oude handschriften probleemloos ontcijferd kunnen worden, geïnterpreteerd, samengevat en de juiste gegevens in de juiste velden in een database kunnen worden gegoten, zijn we weer een tijd verder.

    De afgelopen decennia en ook de komende jaren hebben onderzoekers van nu dus volop profijt van al het 'handwerk' wat door al die particulieren, vrijwilligers en VeleHanden gedaan wordt.

    Christian van der Ven
  • @Leo

    Het gaat hier om software die aan patroonherkenning doet. En dan herkent die software alleen patronen die je er in hebt gestopt. Dus het artikel is in die zin nogal kort door de bocht gescrheven. Je kutn iet elke wilekeurige tekst aan de software aanbieden en dan een transcriptie krijgen, Zie ook de discussie eerder in deze draad over Monk.

    Voorlopig is het een geweldige steun om handschriften, liever gezegd: patronen in handschriften, te herkennen.

    Verwijderde gebruiker

Trefwoorden