Update

  • feb 2021
  • Jan Kruidhof
  • ·
  • Aangepast 27 jun
  • 9
  • 96
Jan Kruidhof
Automatische Tekst Herkenning
  • Nico Vriend
  • Nicole Broek
  • Annelot Vijn
  • Bob Coret
  • Milo van de Pol
  • Liesbeth Keijser

Update: je kunt de VOC-archieven en notariële akten nu ook doorzoeken zonder iets te installeren, via openarch.nl/htr/.

In de video-tutorial hieronder wordt uitgelegd hoe je makkelijk in één keer honderdduizenden HTR-transcripties kunt doorzoeken.

In de dataset zitten o.a. VOC-akten van het Nationaal Archief en notariële akten uit het Noord-Hollands Archief.

Wat je nodig hebt is dit:

Mag je geen programma's installeren zonder toestemming van je ICT-afdeling? Download dan 7-zip Portable en AstroGrep Portable op een USB-stick, dan kun je ze wel gebruiken.

Mocht je vragen hebben, dan help ik je graag verder.

Reacties

9 reacties, meest recent: 23 februari 2021
  • Dank je wel Jan. Erg informatief. Ik zie in astrogrep ook nog links de mogeljkheid je zoekvraag te verfijnen. Zo kan je 'negation' aanvinken. Is dat wellicht zoeken met een foutenmarge?

    Liesbeth Keijser
  • Ha Liesbeth, wat betreft het verfijnen:

    • 'negation': levert alleen documenten op zónder de zoekterm

    • 'search in results': vink dit aan om binnen je zoekresultaten te zoeken op een andere term

    • 'Case Sensitive': hoofdlettergevoelig. Zoek je op 'Hals', dan negeert hij 'hals'.

    • 'Whole word': toont de zoekterm alleen als die als losstaand woord voorkomt. Zoek je op 'woord', dan negeert hij 'tegenwoordig'.

    • 'Search subfolder': zoek in onderliggende mappen van de map die je in 'Search path' hebt gekozen.

    • 'Show filenames only': toont alleen de bestandsnamen van bestanden waarin je zoekterm voorkomt. Als je op de bestandsnaam klikt, zie je geen voorbeeld van het zoekresultaat.

    'Regular Expressions' is meer voor programmeurs.
    'Show all results after search' snap ik nog niet helemaal.

    Jan Kruidhof
  • Mooie tutorial!

    Net als bij Voyant Tools moet je wel er op letten dat je transcriptiefouten niet misloopt (daar wees je ook al even op). Om die reden is het handig om bijvoorbeeld een wild card te gebruiken in je zoekopdracht (*).

    Milo van de Pol
  • Je kunt de VOC-archieven en notariële akten nu ook doorzoeken via openarch.nl/htr/.

    Daarvoor hoef je niets te installeren, dus je kunt sneller aan de slag.

    Superhandig - al was het helemaal leuk als ik dit had geweten vóórdat ik de video-instructie maakte ;)

    Jan Kruidhof
  • Jan, openarch.nl/htr/ is letterlijk een reactie op jouw video :-) !! Ik vond - als IT-er - jouw manier niet echt gebruikersvriendelijk dus een avondje doorhalen en openarch.nl/htr/ zag het licht.

    Alle teksten zijn in ElasticSearch geladen en vanuit deze index wordt de zoekfunctie gevoed. Lastigste was nog om een thumbnail en link naar de archiefwebsite te realiseren. Deze ontbreekt in de Zanado-dataset. Hiervoor zijn een tweetal crawlers (een voor de NA website en een voorde NHA website) gemaakt die op basis van de naam van de scan een thumbnail ophalen, een bronvermelding en natuurlijk een link naar de viewer op de NA of NHA website. Deze crawlers lopen nu nog, dus nog niet bij alle zoekresultaten krijg je een thumbnail, bronvermelding en/of link naar de viewer.

    Bob Coret
  • Ha Bob, leuk! Ziet er mooi uit! Ik gegrijp dat het gewenst is als ik de mets bestanden naar de afbeeldingen ook op Zenodo zet? Mag ik op NA/ datalab een verwijzing maken naar je website en de dataset daar?
    Groet, Liesbeth

    Liesbeth Keijser
  • @Bob Wat gaaf! Ik was al bang dat ik die site over het hoofd had gezien. openarch.nl/htr/ is echt heel mooi gemaakt. En het werkt veel sneller dan wat ik in de video laat zien. Heel erg bedankt!

    Jan Kruidhof
  • Hallo Liesbeth,

    De door het NA en NHA vrijgegeven dataset bestaat uit de bestandsnaam (van scan) en de herkende tekst op de betreffende scan.

    Maar met "NL-HaNA_1.05.03_240_0076" maak je een gebruiker niet blij, daar hoort een nette bronvermelding bij (archieforganisatie, archiefnaam, inventarisnaam) met link naar het inventaris, link naar de scan (viewer) en een thumbnail van de scan.

    De archief- en inventarisnaam had ik (vwb NA) ook via OAI-PMH (bijv. https://service.archief.nl/gaf/oai/!open_oai.OAIHandler?verb=ListRecords&set=1.05.03&metadataPrefix=oai_ead) kunnen ophalen. En hoe je de METS bestanden kan krijgen staat beschreven op https://www.nationaalarchief.nl/onderzoeken/open-data/open-data-archiefinventarissen-en-scans-van-archieven Dit is donderdagochtend-inzicht, had ik dinsdagavond nog niet :-) Wellicht dat je deze laatste link op de Zenodo pagina kunt toevoegen (deze staat al wel netjes op https://www.nationaalarchief.nl/over-het-na/datalab-nationaal-archief, maar dat leest dus niet ieder :-).

    De "extra" informatie heb ik nu gescraped van de website. Van de NA website was dit relatief eenvoudig. Deels door de structuur in de URL's als https://www.nationaalarchief.nl/onderzoeken/archief/1.05.03/invnr/240/file/NL-HaNA_1.05.03_240_0076 en deels doordat data in JSON beschikbaar is (binnen de HTML). Via de crawl heb ik ook de URLs van de thumbnails kunnen halen, deze thumbnails kan ik op Open Archieven tonen (en hoef de thumbnails dus niet te kopiëren).

    Voor het NHA, die MAIS-MDWS, is de crawl lastiger en langzamer (deze loopt ook nog), maar ook noodzakelijker omdat naar mijn weten deze data niet open toegankelijk is (*). Bij de NHA scans moet je zien te achterhalen dat scan NL-Hlm-NHA.1972.746_0108 is te bekijken via https://www.archieven.nl/maisi_ajax_proxy.php?mivast=236&mizig=210&miadt=236&miaet=185&micode=1617&minr=6579423&milang=nl&misort=last_mod%7Cdesc&miview=viewer2 en het inventaris via https://noord-hollandsarchief.nl/bronnen/archieven?mivast=236&mizig=210&miadt=236&miaet=1&micode=1972&minr=2116093&miview=inv2&milang=nl Een link naar een thumb leggen is problematisch van vanwege archieven.nl sessionid's en keys, dus daar worden kopieën van gemaakt om te tonen.

    Een link op NA/datalab naar https://www.openarch.nl/htr/ wordt op prijs gesteld.

    (*) correctie: EAD's (dus archief/inventarisbeschrijvingen) open beschikbaar via https://noord-hollandsarchief.nl/bronnen/archieven?mivast=236&mizig=349&miadt=236&milang=nl&misort=last_mod%7Cdesc&mif2=1&miview=tbl

    Bob Coret
  • Dank Bob voor je uitgebreide uiteenzetting. Ik zal de link naar open data van het NA opnemen n zenodo. En ik zal een verwijzing maken naar jouw website p onze NA /DATALAB. Vriendelijke groet, LIesbeth

    Liesbeth Keijser

Trefwoorden