Zich zelf verbeterende site...
Donderdag 31 januari aanstaande promoveert Vera Hollink op linkstructuren op sites die zichzelf verbe...
Het Nationaal Archief gebruikt momenteel Verity om de collecties via de website doorzoekbaar te maken. Zijn er ook archiefinstellingen die hiervoor gebruikmaken van de Open Source oplossing Lucene? Welke andere 'enterprise search' oplossingen zijn in gebruik, en wat zijn daar de ervaringen mee?Reageren maar!
Reacties
Bij Historisch Centrum Overijssel hebben we, in afwachting van een 'serieuze' zoekmachine-oplossing, Google Mini geinstalleerd. Dat is nu twee jaar geleden en op zich gaat dat goed, zij het dat het wel een héle basale text-search is in html- en pdf-documenten.. ook de zoekresultaten konden wij niet aanpassen naar onze huisstijl. We hebben geen werk gemaakt van het koppelen en doorzoeken van andere formaten, zoals verschillende databases. Volgens mij is dat bij het Utrechts Archief wél gebeurt, en worden beeldbank, archievenoverzicht en andere bronnen door GM doorzocht. Helaas ken ik daar de details niet van, bijvoorbeeld of het nog steeds om de oorspronkelijke GM licentie gaat.
Hoi Esther, Bedankt voor je reactie! Het Utrechts Archief gebruikt de Google Search Appliance, de 'grotere broer' van Google Mini. Daar worden inderdaad ook de beeldbank en andere bronnen mee doorzocht. groetjes, Albert
Voor het indexeren en full-text doorzoeken van de informatie van de ruim 5 miljoen voorouders die op Genealogie Online zijn gepubliceerd gebruik ik de open-source tool Swish-e. Wat er geindexeerd wordt en hoe het gepresenteerd wordt is allemaal te configureren. Swish-e is a fast, flexible, and free open source system for indexing collections of Web pages or other files. Swish-e is ideally suited for collections of a million documents or smaller. Using the GNOME™ libxml2 parser and a collection of filters, Swish-e can index plain text, e-mail, PDF, HTML, XML, Microsoft® Word/PowerPoint/Excel and just about any file that can be converted to XML or HTML text. Swish-e is also often used to supplement databases like the MySQL® DBMS for very fast full-text searching. In de lijst met gebruikende websites zie ik ook het Rijksmuseum staan! mvg, Bob Coret
Bob, Ik lees op Swish-e in het artikel "SWISH-E has two downsides we should mention. First, it’s not multibyte safe—it handles only 8-bit ASCII data. Second, records cannot be deleted from a SWISH-E index—to remove records, an index must be re-created.". Met name de eerste beperking lijkt lastig. Het is de vraag wat er precies onder "only 8-bit ASCII" verstaan wordt. Als het er op neerkomt dat letters als ü, é, ñ, ĉ er niet goed in verwerkt worden, is dat toch echt een nadeel voor archieven waarin naast nederlandse, ook andere teksten kunnen voorkomen als franse, duitse en hebreeuwse en familienamen uit heel de werled kunnen voorkomen met al hun accentletters/diakrieten.
Wij gebruiken voor een aantal van onze klanten zoekoplossingen die we bouwen met een onderliggende Lucene index. Momenteel met name voor onze krantenviewer (zie bv. de kranten van het Regionaal Archief Leiden, momenteel 376.515 pagina's). Ook de zojuist opgeleverde vernieuwde Beeldbank van het Nationaal Archief (506.718 records) maakt gebruik van een Lucene index. Onze ervaring met Lucene is erg goed, het is echter wel zo dat je voor indexen van enige omvang ook flink in goede en snelle hardware moet investeren anders loop je snel tegen limieten aan.
Jules, Heb met diakrieten eigenlijk nog geen probleem gehad, zoeken op Abigaël levert de juiste resultaten op.
je kunt een letter met een diakriet ook in 8-bit ASCII uitdrukken, mits deze in de ASCII tabel staat. Dat gaat voor bovengenoemde karakters goed, behalve voor ĉ. Dit karakter bestaat niet in de ASCII set en zal dus problemen kunnen geven met Swish-e. @Bob Coret: als je in de door jou aangeboden link zoekt op "Abigael" i.p.v. "Abigaël", krijg je een verschillend resultaat. Dat is voor sommige situaties wellicht niet handig. Voor een niet Unicode systeem is dit lastig op te lossen. Bij de Beeldbank Nationaal Archief bijvoorbeeld, werd nadrukkelijk gesteld dat een zoekopdracht naar "Indië" ook de resultaten met "Indie" moest vinden, met een Unicode index in Lucene geen probleem.
Het zoekvenster op www.gemeentearchief.denhaag.nl doorzoekt 16 collecties. De zoekfunctie maakt voor iedere collectie gebruik van een adapter die de specifieke 'achterkant' vertaalt naar een generieke 'voorkant'. Geen open source, maar wel uniform in de presentatie van zoekresultaten, en zeer schaalbaar: komt er een collectie bij, dan is er ook in no time een adapter 'aangeplugd'.
Hans Peter en alle anderen, Dank voor jullie inbreng! We beginnen volgende week met het inrichten van Lucene en Solr. Hiermee willen we op de nieuwe website straks al onze gegevensverzamelingen kunnen doorzoeken. Een aantal uitdagingen staan ons zeker nog te wachten... Wanneer we daar wat verder mee zijn hoop ik dat met jullie te delen.
Heel graag, Albert! Het toegankelijk maken van al je materiaal, zonder gesloten, dure maatwerkoplossingen aan te hoeven schaffen, is iets wat we allemaal graag willen. (Toch?)
De aanschaf van Solr mag dan niet duur zijn (geen licentiekosten), de benodigde hardware en het inrichten van het systeem kosten aardig wat geld & inspaning. Of trap ik nu een Open Deur in? Gisteren las ik ergens: "een pelgrimage zonder blaren is een wandeling" Misschien geldt dat hier ook wel. En anders gaan we maar gewoon zoekkaarten à la Google Classic uitdelen aan onze bezoekers!
Natuurlijk, "open source" is iets anders dan "goedkoop", een denkfout die nogal eens wordt gemaakt. Zijn er eigenlijk vergelijkende voorbeelden tussen erfgoedinstellingen met maatwerk- en open source oplossingen, dat jij weet? In de zin van geld en inspanning dan?
@Albert Wat een geweldige quote! Ik ben heel benieuwd naar het resultaat. En dat delen hè... daar blijf ik fan van!