Welke hyperlinks zitten er in je bestanden?

  • nov 2017
  • Remco van Veenendaal
  • ·
  • Aangepast 27 jun
  • 82
Remco van Veenendaal
Preservation Digitaal Erfgoed

Welke hyper- en mailto-links zitten er in je digitale archief? Hoe krijg je ze eruit? Ross Spencer (Digital Preservation Analyst, Archives New Zealand) bouwde een "Hyperlink Extraction Tool" genaamd tikalinkextract op basis van Apache Tika.

Wanneer kan tikalinkextract nuttig voor je zijn? Een paar voorbeelden:

  • Als je niet weet of er links in je digitale archief zitten. Tikalinkextract helpt je aan een overzicht.

  • Als je niet weet hoeveel links er in je digitale archief zitten. Hoe meer links, hoe lastiger het kan zijn om het archief in goede, geordende en toegankelijke staat te houden.

  • Als je niet weet waar de links naar verwijzen. Uit de uitvoer van tikalinkextract kun je opmaken welke links naar interne informatie verwijzen, en waar ze naar externe bronnen verwijzen. Hoe houd je de interne links (binnen een DMS of RMA) werkend? Hoe belangrijk zijn de externe bronnen voor bijvoorbeeld de besluitvorming in een proces, en hoe zeker weet je dat die externe bronnen altijd beschikbaar blijven voor het reproduceren van die besluitvorming?

  • Als je wilt weten of er 'dode links' in je archief zitten. Van de links die tikalinkextract vindt, kun je (automatisch) laten controleren of ze 'dood' of 'levend' zijn. Hoe meer dode links, hoe groter de kans dat bijvoorbeeld een besluitvormingsproces niet meer te reproduceren is.

Ross schreef een blog over zijn werk aan tikalinkextract op de website van de Open Preservation Foundation. De huidige versie van de software is 0.0.2. Houd er dus rekening mee dat het nog geen productiesoftware is. De software staat op github, dus help Ross gerust bij het verbeteren van de software. Ook als je geen programmeur bent, kun je helpen door je testresultaten door te geven.

Trefwoorden