KVANdagen 2013
Ook ik ben één van de studenten die naar de KVAN dagen in Amsterdam mochten dit jaar. Als tegenprestat...
Beste lezer,Ik ben, naast mijn werkzaamheden voor Scheeres, tevens moderator van een ondernemersforum op internet (higherlevel. nl)Higherlevel heeft inmiddels een database met bijna 30.000 topics en 300.000 berichten, en 3 miljoen pageviews per maand, wat ontegenzeggelijk leidt tot problemen met de ontsluiting van alle beschikbare info.De zoekfunctie is an sich goed, maar het is lastig de beste topics bovenwater te krijgen.Eenvoudig voorbeeld:Als men bijvoorbeeld zoekt op 'faillissement' dan worden niet de topicsgetoond die het woord 'failliet' bevatten, of synoniemen daarvan, maar alleen de topics met het exact woord 'faillissement'.Ik/We denk(en) momenteel over de mogelijkheid o.b.v. een thesaurus /synoniemenlijst alle topics met terugwerkende kracht te taggen incombinatie met de waardering van topics door onze leden.Hiermee zouden we relevantere resultaten moeten kunnen tonen is onzemening en daarnaast kunnen we veel meer aanvangen met de informatie diein al die berichten opgesloten zit door het toevoegen van diverse intelligentere zoekmogelijkheden.Mijn vraag is of er in de archiefwereld, die daar al verder zijn met dit soort systemen zijn voor zover ik weet, best-practices te vinden zijn, achtergrondinfo over dit onderwerp etc.Alvast bedankt voor het meedenkenFrans
Reacties
Een open deur misschien, maar... De bibliotheekwereld heeft ook systemen en meer informatie over dit onderwerp / probleem. En ervaring ermee. Zie bijvoorbeeld Bibliotheek 2.0 of het vakblad 'Informatie Professional' (ook op Twitter te volgen). Een eigen thesaurus bouwen kost wel erg veel tijd en moet ook up-to-date gehouden worden. Maar ook een 'standaard-trefwoordenlijst' moet bijgehouden worden. Het is wel nodig/wenselijk om zo'n lijst in een databank/website te maken lijkt mij. Zodat je in verschillende bestanden kunt kijken op basis van een standaardtrefwoord (tag). (N.B.: waarom toch steeds die engelse woorden ? Tag is toch een 'trefwoord' of 'zoekterm' ?). Succes ermee !
Wat een klus! Op zich heeft de archiefwereld natuurlijk wel ervaring met het ontsluiten van informatie, maar forums, da's een ander verhaal... Het BHIC heeft bijvoorbeeld wel een actief forum, maar de blijvende waarde van onderwerpen is nogal gering in de meeste gevallen - een hele goede zoekfunctie is dan minder relevant. Ik begrijp dat jullie forum tegelijkertijd een soort kennisbank is/wordt. Met terugwerkende kracht al die onderwerpen taggen, da's een hels karwei, lijkt me. Door gebruikers laten taggen van onderwerpen - oud en nieuw - dat klinkt alweer beter (in combinatie met de normale zoekfunctie). Een thesaurus, dat staat dan weer haaks op het idee van taggen - dat gaat immers over het door de gebruiker laten kiezen van 'vrije' trefwoorden. Een thesaurus is veel strikter van aard. Misschien dat je de zoekfunctie eerst eens kunt uitbreiden met een soort 'fuzzy search' of zo. Of zoeksuggesties geven zoals Google dat doet ("bedoelde je...?") en dan kijken hoe het bevalt?
@Wim: Een 'tag' is trouwens zeker geen 'trefwoord' of 'zoekterm'. Een tag is een soort van etiket wat een gebruiker ergens op kan plakken en waarop hij/zij zelf kan schrijven wat hij/zij wil. Bij een foto van een hondje kan dat zijn 'hond' of 'hondje' of 'dier', maar ook 'lief' of 'Bello'. Tags zijn dus vrij in te vullen en taggen doe je doorgaans voor jezelf, om dingen zelf terug te kunnen vinden op zaken die voor jou belangrijk zijn.
In hoeverre heeft Google jullie forum geïndexeerd? Zelf ben ik webmaster van een forum met een soortgelijk aantal onderwerpen met ruim 500.000 berichten met ruim 1,5 miljoen pageviews per maand. En juist al het informatieve wat er te vinden is, is datgene wat bezoekers terug laat keren naar de website. Oftewel, hoe houdt je de juiste informatie houdbaar en terugvindbaar. Een hele lastige klus kan ik je wel vertellen waar ook ik niet de juiste oplossing voor kan vinden ;-) Wat ik wel merk is dat Google het forum de afgelopen jaar ontzettend goed heeft geïndexeerd en tegen de zoekalgoritmen kan vooralsnog geen andere zoekmachine tegenop (ook niet de zoekfuncties die in het forum zelf zitten). Een optie waar ik ook mee experimenteer is met Google Custom Search alles vindbaar te maken. Maar dan wel op een manier dat de Google Custom Search volledig is geïntegreerd in het forum. Hiernaast heb ik ook enkele Google Alerts ingesteld die mij een actueel overzicht geven hoe actueel Google is met het indexeren van de nieuwste onderwerpen en bijbehorende berichten. Daarnaast speel ik zelf ook met het idee om bepaalde stukken informatie van een soort kwaliteitslabel te voorzien. Dit kwaliteitslabel moet simpel zijn (een +1 of een -1) welke door de leden zelf gegeven kan worden. Binnen phpBB zijn hier ook kant en klare modules voor. Met deze labels kun je uiteindelijk de juiste stukken informatie eruit filteren en op een eenvoudigere manier presenteren of naar blijven verwijzen bij altijd dezelfde terugkerende vragen. Van welk raamwerk (zoals vBulletin, phpBB, Invison Power Board etc) maakt het forum van higherlevel.nl gebruikt?
Jouw probleem is meer een information retrieval probleem dan een archief-probleem. Wat je nodig hebt is een goede zoekmachine die intelligent omgaat met de zoekvraag. Die dus weet dat failliet en faillissement dezelfde stam hebben, en dat je ook geinteresseerd bent in bomen als je op boom zoekt. Het ontwikkelen van robuuste algoritmes om die verwante woorden te bepalen is gespecialiseerd werk waar zoekmachinefabrikanten veel tijd in hebben gestopt. Waarschijnlijk ben je het beste af met de inzet van een goede zoekmachine. De hier al genoemde Custom Search Engine van Google is een optie, een andere optie is bijvoorbeeld Solr. Los daarvan kun je je gebruikers inzetten om de posts te ontsluiten door deze te taggen, om zo meer vindbare content te krijgen. Ik zou ze niet in een format dwingen met een gestandaardiseerde trefwoordenlijst. Niet alleen zal dat het animo ontzettend beperken, je wilt juist graag dat mensen hun eigen woorden gebruiken. De woorden die je gebruikers gebruiken om een post te taggen liggen waarschijnlijk dichter bij de woorden die de gebruikers gebruiken om te zoeken. Als je kunstmatig afdwingt welke woorden ze mogen gebruiken, is de kans klein dat dat ook de woorden zijn die ze in je eigen zoekmachine of in Google zullen intypen. Als je een levende community hebt zullen er vanzelf conventies voor tags ontstaan die aansluiten bij wat de mensen fijn vinden.
Test