Allemaal op papier! Voor alle kinderen van Nederland
Na de hectiek van de KVAN zijn we toe aan het educatieve project 200 jaar Burgerlijke Stand. Dit krijg...
Visual query language ofwel een op verbeelding gebaseerde visueel georienteerde zoektaal zouden heel interessant kunnen zijn voor Archief 2.0 gebruik. En ook voor het te vernieuwen Genlias.Over visuel query languages wordt al een paar jaar gepraat op universiteiten, bijvoorbeeld: [http://www.cs.brown.edu/~spr/research/bloom/mural.pdf] Er zijn al tientallen publicaties verschenen over dit onderwerp. Als techneut boeit mij dat maar omdat ik eigenlijk alleen maar kan programmeren in perl deed ik er niets mee. Totdat ik in aanraking kwam met een geweldig pakket genaamd 'Anthracite' dit draait onder de freebsd kernel darwin van osx en is afkomstig van www.metafy.com Wat is er nu zo geweldig aan dit pakket? De gebruiker hoeft geen programmeur meer te zijn om met behulp van een soort semiotische tekens een sequentie van handelingen te schetsen in dit pakket waarmee een zoekrobot wordt opgetuigd om internet of een database of een paar honderd bestanden (alles kan) te onderzoeken. Vervolgens kunnen de resultaten in allerlei vormen worden gerapporteerd/geëxporteerd. En dat schept onverwachte mogelijkheden voor digitaal archiefonderzoek. Eindelijk kunnen analytisch ingestelde niet IT-'ers zelf functionaliteit creëren zonder programmeer kennis.
Reacties
Erik, klinkt interessant.. maarruh.. even voor iemand die inmiddels de automatisering een aantal jaren geleden alweer verliet: waar hebben we het nu precies over? Begrijp ik het goed dat je met dit pakket op een eenvoudige manier vragen laat stellen aan een verzameling websites, databases enzovoort? En dat je vervolgens die resultaten in dezelfde ruk naar de vraagsteller toe kan presenteren? En dat eigenlijk iedereen dit dan kan doen, zodat iemand bijvoorbeeld een api kan maken op de nieuwe Genlias of de website/database van een archiefdienst of zo?
Dat heb jij goed begrepen. Dat is inderdaad de essentie van dit pakket. Wat je doet lijkt veelt op de methodiek die LEGO via LabView hanteert voor het bouwen van robots met Mindstorms NXT. Via modules stel je functionaliteit samen op een werkvlak d.m.v. grafische representaties. Die moeilijke iteraties die een programmeur moet bedenken zijn hierin al voorgeprogrammeerd. Eigenlijk visualiseert de eindgebruiker het gewenste resultaat met Anthracite. En het aardige is, het is een bestaand product wat zich al bewezen heeft op het web (voor scraping doeleinden). Ik heb er een licentie voor gekocht om mee te kunnen experimenteren en zoek nu naar een voor Archief 2.0 relevante uitdaging om te kunnen testen of het ook voor records managers en ander gepeupel oplossingen kan bieden.
Ah! Da's mooi! :-) Oké.. Hmm.. Een relevante uitdaging hè? Misschien het volgende: er is altijd veel discussie over het aan mekaar koppelen van verschillende databases of zo. Het zou te duur zijn, te ingewikkeld, wat dan ook. Volgens mij valt dat allemaal reuze mee, maar ik mis tegenwoordig zowel de technische kennis als de tijd om die mening met daden kracht bij te zetten. Zou dat iets zijn? Wat als je zou proberen twee databases van twee archiefdiensten in één keer te laten doorzoeken, via één schil, op één manier, met één presentatie van zoekresultaten. Zou dat iets zijn? Klein beginnen misschien: een index van het BHIC in Den Bosch en een index van het RAT in Tilburg.. om maar iets te noemen. (Als showcase is alles goed natuurlijk!) Is dit iets om een keer over te brainstormen hier?
Ik ga er eens over nadenken of dit mogelijk is. Als ik wat kan laten zien doe ik dat via dit medium. Oh ja, scriptie is ingeleverd en al beoordeeld ook, heel binnenkort ben ik student af. Nu op zoek naar een betaalde werkkring.
Erik, Ik heb zelf geen Mac, ken je toevallig ook een Windows variant? Als je een API zoekt om mee te spelen, zie de genealogische API's op http://api.coret.org/mvg, Bob Coret
Nee, helaas die is er niet. De ontwikkelaar heeft ook niet de intentie er één te bouwen. De reden hiervan is dat het programma intensief gebruik maakt van bibliotheken van het operating system. OS X bevat een zeer geavanceerde grafische engine, Quarz geheten, die het mogelijk maakt om retesnel presentaties te bouwen. Verder zijn de regular expressions functies ontleend aan OS X (grep). Er is dus geen PC versie en geen Linux versie. Gelukkig neemt het marktaandeel van OS X de laatste paar jaren exponentieel toe. Het probleem lost zich dus vanzelf op.
Erik, dat van die scriptie had ik al vermoed. Altijd fijn om daar vanaf te zijn! :-) Ik ben benieuwd of je ergens mee op de proppen kunt komen. En alvast bedankt voor je bijdrage aan deze club!
Inmiddels lekker aan het stoeien met de 'opdracht' van Christian. Er is een gratis webscraper voor Windows beschikbaar het voordeel van dit stukje software is dat het voor meerdere platforms (windows, osx en linux) beschikbaar is i.t.t. Anthracite van Metafy. Het nadeel is dat perl scripting niet mogelijk is, maar scripting in tig andere talen (die ik niet beheers) wel.
Erik, ik ben héééél benieuwd! :-)
De uitdaging lijkt heel eenvoudig maar is dat niet zoals gewoonlijk bij vragen die gemakkelijk lijken. Alleen al de overweging ga ik de retrieval aanpakken via regular expressions of via parsing is een studie op zichzelf. Maar dat soort beslissing moet je al in het begin stadium nemen om het eindresultaat te kunnen opschalen. Nog zo'n vraag is dan moet ik nu al rekening houding met het gebruik van expertsystemen en de inzet van ontologiën? Al met al is jouw 'eenvoudige' opdracht een pittige uitdaging gebleken. Maar je weet waarschijnlijk ook als ex-IT-er dat juist door dit soort open vragen te trachten te beantwoorden je kunt groeien. Ook al kost dat zeeën met tijd.
Als het lukt, dan nemen we er een biertje 1.0 op.. haha! Maar serieus, als ik kan helpen - dat kan ik voornamelijk met nadenken over wenselijke output en dergelijke - dan hoor ik het wel. Ik ben gewoon erg nieuwsgierig of dit gaat, omdat het hele toffe deuren kan openen richting onze databases.
Volgens de Help ondersteunt screen-scraper ook SOAP in de Enterprise edtion. En voor perl heb je uiteraard wel weer SOAP modules. Zie http://www.screen-scraper.com/support/docs/soap_interface.php
Heb je ook gezien wat de Enterprise edition kost? Ik ben een net afgestudeerde archivaris/ informatiespecialist, zonder baan, zonder inkomen en zonder gekke gerritje die me dat even schenkt. Ik weet wel dat ik via de geëigende kanalen aan serialz en hackz kan komen om dit te regelen. Maar sinds ik zelf ben gaan ontwikkelen en programmeren heb ik een enorm respect gekregen voor de inspanningen die programmeurs moeten leveren voor ogenschijnlijk eenvoudige software. Sindsdien koop ik al mijn software. Wat ik niet kan kopen moet ik dus zelf leren bouwen.