Zoekmachine

dec 2008
Verwijderde gebruiker
·
Aangepast jun 2024
13
747

Het Nationaal Archief gebruikt momenteel Verity om de collecties via de website doorzoekbaar te maken. Zijn er ook archiefinstellingen die hiervoor gebruikmaken van de Open Source oplossing Lucene? Welke andere 'enterprise search' oplossingen zijn in gebruik, en wat zijn daar de ervaringen mee?Reageren maar!

Reacties

13 reacties, meest recent: 28 maart 2009

Omgekeerde volgorde

Verwijderde gebruiker
1229511600

Bij Historisch Centrum Overijssel hebben we, in afwachting van een 'serieuze' zoekmachine-oplossing, Google Mini geinstalleerd. Dat is nu twee jaar geleden en op zich gaat dat goed, zij het dat het wel een héle basale text-search is in html- en pdf-documenten.. ook de zoekresultaten konden wij niet aanpassen naar onze huisstijl. We hebben geen werk gemaakt van het koppelen en doorzoeken van andere formaten, zoals verschillende databases. Volgens mij is dat bij het Utrechts Archief wél gebeurt, en worden beeldbank, archievenoverzicht en andere bronnen door GM doorzocht. Helaas ken ik daar de details niet van, bijvoorbeeld of het nog steeds om de oorspronkelijke GM licentie gaat.

Verwijderde gebruiker
1229515080

Hoi Esther, Bedankt voor je reactie! Het Utrechts Archief gebruikt de Google Search Appliance, de 'grotere broer' van Google Mini. Daar worden inderdaad ook de beeldbank en andere bronnen mee doorzocht. groetjes, Albert

Bob Coret
1229536860

Voor het indexeren en full-text doorzoeken van de informatie van de ruim 5 miljoen voorouders die op Genealogie Online zijn gepubliceerd gebruik ik de open-source tool Swish-e. Wat er geindexeerd wordt en hoe het gepresenteerd wordt is allemaal te configureren. Swish-e is a fast, flexible, and free open source system for indexing collections of Web pages or other files. Swish-e is ideally suited for collections of a million documents or smaller. Using the GNOME™ libxml2 parser and a collection of filters, Swish-e can index plain text, e-mail, PDF, HTML, XML, Microsoft® Word/PowerPoint/Excel and just about any file that can be converted to XML or HTML text. Swish-e is also often used to supplement databases like the MySQL® DBMS for very fast full-text searching. In de lijst met gebruikende websites zie ik ook het Rijksmuseum staan! mvg, Bob Coret

Verwijderde gebruiker
1229585580

Bob, Ik lees op Swish-e in het artikel "SWISH-E has two downsides we should mention. First, it’s not multibyte safe—it handles only 8-bit ASCII data. Second, records cannot be deleted from a SWISH-E index—to remove records, an index must be re-created.". Met name de eerste beperking lijkt lastig. Het is de vraag wat er precies onder "only 8-bit ASCII" verstaan wordt. Als het er op neerkomt dat letters als ü, é, ñ, ĉ er niet goed in verwerkt worden, is dat toch echt een nadeel voor archieven waarin naast nederlandse, ook andere teksten kunnen voorkomen als franse, duitse en hebreeuwse en familienamen uit heel de werled kunnen voorkomen met al hun accentletters/diakrieten.

Verwijderde gebruiker
1229586960

Wij gebruiken voor een aantal van onze klanten zoekoplossingen die we bouwen met een onderliggende Lucene index. Momenteel met name voor onze krantenviewer (zie bv. de kranten van het Regionaal Archief Leiden, momenteel 376.515 pagina's). Ook de zojuist opgeleverde vernieuwde Beeldbank van het Nationaal Archief (506.718 records) maakt gebruik van een Lucene index. Onze ervaring met Lucene is erg goed, het is echter wel zo dat je voor indexen van enige omvang ook flink in goede en snelle hardware moet investeren anders loop je snel tegen limieten aan.

Bob Coret
1229593740

Jules, Heb met diakrieten eigenlijk nog geen probleem gehad, zoeken op Abigaël levert de juiste resultaten op.

Verwijderde gebruiker
1229601540

je kunt een letter met een diakriet ook in 8-bit ASCII uitdrukken, mits deze in de ASCII tabel staat. Dat gaat voor bovengenoemde karakters goed, behalve voor ĉ. Dit karakter bestaat niet in de ASCII set en zal dus problemen kunnen geven met Swish-e. @Bob Coret: als je in de door jou aangeboden link zoekt op "Abigael" i.p.v. "Abigaël", krijg je een verschillend resultaat. Dat is voor sommige situaties wellicht niet handig. Voor een niet Unicode systeem is dit lastig op te lossen. Bij de Beeldbank Nationaal Archief bijvoorbeeld, werd nadrukkelijk gesteld dat een zoekopdracht naar "Indië" ook de resultaten met "Indie" moest vinden, met een Unicode index in Lucene geen probleem.

Verwijderde gebruiker
1238087160

Het zoekvenster op www.gemeentearchief.denhaag.nl doorzoekt 16 collecties. De zoekfunctie maakt voor iedere collectie gebruik van een adapter die de specifieke 'achterkant' vertaalt naar een generieke 'voorkant'. Geen open source, maar wel uniform in de presentatie van zoekresultaten, en zeer schaalbaar: komt er een collectie bij, dan is er ook in no time een adapter 'aangeplugd'.

Verwijderde gebruiker
1238137560

Hans Peter en alle anderen, Dank voor jullie inbreng! We beginnen volgende week met het inrichten van Lucene en Solr. Hiermee willen we op de nieuwe website straks al onze gegevensverzamelingen kunnen doorzoeken. Een aantal uitdagingen staan ons zeker nog te wachten... Wanneer we daar wat verder mee zijn hoop ik dat met jullie te delen.

Christian van der Ven
1238142780

Heel graag, Albert! Het toegankelijk maken van al je materiaal, zonder gesloten, dure maatwerkoplossingen aan te hoeven schaffen, is iets wat we allemaal graag willen. (Toch?)

Verwijderde gebruiker
1238143440

De aanschaf van Solr mag dan niet duur zijn (geen licentiekosten), de benodigde hardware en het inrichten van het systeem kosten aardig wat geld & inspaning. Of trap ik nu een Open Deur in? Gisteren las ik ergens: "een pelgrimage zonder blaren is een wandeling" Misschien geldt dat hier ook wel. En anders gaan we maar gewoon zoekkaarten à la Google Classic uitdelen aan onze bezoekers!

Christian van der Ven
1238222280

Natuurlijk, "open source" is iets anders dan "goedkoop", een denkfout die nogal eens wordt gemaakt. Zijn er eigenlijk vergelijkende voorbeelden tussen erfgoedinstellingen met maatwerk- en open source oplossingen, dat jij weet? In de zin van geld en inspanning dan?

Verwijderde gebruiker
1238231940

@Albert Wat een geweldige quote! Ik ben heel benieuwd naar het resultaat. En dat delen hè... daar blijf ik fan van!

Deel

Help

Zoekmachine

Reacties

Trefwoorden

Deel

Help

Zoekmachine

Reacties

Trefwoorden

Verken

Column Archievenblad: Straal me op

Life in an archive! - archivarissen filmen zichzelf

Is alles context, of is context niet alles?