Archieven zoeken bij Gahetna en Archieven Portaal Europa

mei 2012
Ernest Verhees
·
Aangepast jun 2024
12
496

Naar aanleiding van diverse discussies (Hebben archieven minder google nodig; Programma van eisen voor de virtuele studiezaal en bij Hoeveel archieven doen mee aan ead) heb ik een vergelijking gemaakt tussen het zoeken in de archieven van het Nationaal Archief bij Gahetna en bij Archieven Portaal Europa (APE).

In mijn eerdere bespreking van Gahetna noemde ik het probleem van de zoekresultaten ook, met de vraag of het in het zoekresultaat meteen tonen van de bestanddelen een principeel of een technisch probleem is. Met de introductie van Archieven Portaal Europa(APE) in de discussies (was voor mij nieuw, eerlijk gezegd) is er nu een interessante vergelijking mogelijk. Ik heb de zoekterm waalbrug voor de test gehandhaafd.

Gahetna revisited

In vergelijking met de test van Gahetna van alweer bijna een jaar geleden, zijn er enkele verbeteringen. Na het zoeken op Waalbrug krijg ik dit keer 6 (en geen 8?) archieven met daarin in totaal 53 archiefbestanddelen met de zoekterm en 13 in de archiefbeschrijving. Het archief van de commissie onderzoek Waalbrug is hierbij nadrukkelijk het meest relevant met 37 bestanddelen en 11 treffers in de archiefbeschrijving. Dit is nu ook het eerste archief maar een volledige sortering op aantal treffers is er niet, aangezien Archief Cool nummer 3 is, met slechts 1 bestanddeel.

Bij elke treffer zijn het archief aan te klikken, de bestanddelen én de archiefbeschrijving (indien van toepassing). Nu is dus wel in één keer naar de bestanddelen met de treffers te klikken. Naast deze links worden van elk archief ook het nummer van de archiefinventaris getoond en de periode van het archief.

Het is dus wel de klassieke opbouw van archieven als eerst zoekresultaat en daarbinnen kun je dan gaan zien wat nu eigenlijk de treffers zijn, om daarna weer naar het overzicht te gaan en dan naar het volgende archief.

Archieven Portal Europe

Zoeken met Waalbrug in APE levert 22 treffers (allemaal van het Nationaal Archief) en deze worden meteen met de treffers in de beschrijving getoond. Van deze 22 zijn er 21 uit een toegang en 1 uit het archievenoverzicht, zo leert de filtering. Die ene treffer uit het archievenoverzicht betreft het archief van de commissie onderzoek Waalbrug (nr. 2.13.128). Het is niet eenvoudig te achterhalen uit hoeveel verschillende archieven de overige 21 treffers komen. Dit zou een hele nuttige filtering zijn, lijkt mij. Door de resultaten te sorteren op toegangsnummer (in plaats van op relevantie, waarvan niet duidelijk is hoe die bepaald wordt), kun je het dit geval makkelijk zelf tellen. Het zijn er 8! archieven 2.05.117 en 4 CBF vallen bij Gahetna buiten de boot bij het zoeken (hoewel inv. nr. 3017 er wel is met Waalbrug). Dan heb ik ook weer de 55 treffers van vorige keer. Op de 21 bestanddelen van APE ipv de 53 bij Gahetna kom ik zo nog terug. (n.b. hierna bij APE contextweergave bekeken en hier zie je meteen de 8 archieven, met sortering op aantal treffers maar archief commissie waalbrug niet bovenaan).

n.b. geen deeplinks naar zoekresultaat mogelijk (of gevonden) helaas, dus plaatje erbij:

Het mooie van de presentatie bij APE is dat je meteen de beschrijving van de bestanddelen ziet, door alle 21 kunt bladeren en deze kunt sorteren én dat er meteen enige context bij wordt gegeven. Je kunt een volledige bestanddeelbeschrijving openklappen of rechtstreeks klikken naar het bestanddeel in de betreffende toegang. Bij elk bestanddeel staan naast de beschrijving nog vermeld: de periode, de titel van de toegang (en daarmee de naam van het archief), het toegangsnummer, het inventarisnummer en de archiefinstelling. Voor APE is dat laatste uiteraard zeer relevant, bij toegangsnummer en zeker inventarisnummer heb ik wat meer mijn twijfels of dat meteen getoond moet worden. Zeker voor de leek vermoedelijk onduidelijke nummers.

Wat zijn treffers?

Nu nog terug naar de 53 treffers bij Gahetna en 22 bij APE. Dit wordt veroorzaakt doordat APE in archief commissie Waalbrug slechts 3 treffers telt tegenover de 37 bij Gahetna. De laatste rekent, vermoedelijk door het voorkomen van Waalbrug in de naam van het archief, alle bestanddelen in dit archief als treffers ook al komt in die bestanddelen zelf Waalbrug niet voor. APE geeft echter alleen de 3 bestanddelen met Waalbrug erin als treffers. Bij de eerste wordt de context dus meegenomen bij het zoeken, maar is dat handig? Dit gaat zelfs zover dat ook een deelbeschrijving als nrs. 151 – 160 uit een serie ingekomen stukken als treffer telt voor de zoekterm Waalbrug.

Hierbij lijkt mij het denken in ISAD niveaus van belang. Dit zou betekenen als er een treffer is op een hoger niveau, de lagere niveaus niet meer meetellen want deze vallen dan automatisch onder dat hogere niveau waarin de zoekterm voorkomt. Als je archief commissie waalbrug hebt, hoef je dus niet alle 37 bestanddelen uit dit archief als treffer te geven want het is aannemelijk dat die allemaal met de Waalbrug te maken hebben. Doordat de term in de beschrijving van het archief voorkomt, komt deze bovenaan in het zoekresultaat want is het meest relevant want het hele archief gaat erover.

Ik zou in ieder geval alléén beschrijvingen tonen waar de zoekterm ook in voorkomt. Dus bij een treffer in een verzamelbeschrijving (stel dat het was geweest ” Ingekomen stukken bij de commissie waalbrug”), dan niet alle deelbeschrijvingen ook als treffer laten gelden. Die zie je wel in de toegang, wat de onder- en bovenliggende niveaus zijn. Hetzelfde bij een treffer in een rubrieksbeschrijving (dan ook niet alle beschrijvingen daaronder meenemen).

Presentatie toegangen

Tot slot de presentatie van de toegangen, uit de 3 beschikbare varianten (website Gahetna, PDF, website APE en ead/xml niet meegerekend) heb ik een sterke voorkeur voor het PDF.

Reacties

12 reacties, meest recent: 25 mei 2012

Omgekeerde volgorde

Christian van der Ven
1337574360

Mooie vergelijking, Ernest. Aan de (vermeende) relevantie van zoekresultaten (en de manier van presenteren daarvan) kunnen we een aparte speel-en-deelsessie wijden! ;-)

Bij Archieven.nl worstelen we met dezelfde uitdagingen. Bijvoorbeeld het meewegen van de context bij het bepalen van welke beschrijvingen al dan niet treffers zijn, en hoe relevant die vervolgens zijn. Volgens ISAD(G) gaat iedere vlieger van een hoger niveau ook op voor alle beschrijvingen ónder dat niveau. De relevantiebepaling zit deels dus feitelijk al in ISAD(G) zelf besloten (en sluit aan bij de beschrijvingsmethodiek van archivarissen, waarbinnen stukken deels worden beschreven door de context te beschrijven). Een omslag met "Correspondentie over de bouw" in een rubriek "Waalbrug" is dus net zo relevant als treffer bij de zoekopdracht "Waalbrug" als een omslag met "Correspondentie over de bouw van de Waalbrug".

Pak ik je een-na-laatste alinea even als voorbeeld. Stel dat je alleen uitgaat van beschrijvingen waarin een zoekterm ook daadwerkelijk voorkomt, zijn die dan ook allemaal even relevant? Weegt een beschrijving van een archief dan zwaarder dan van een rubriek, en van een enkel stuk (als er allemaal dezelfde zoekterm in voorkomt)? Wat nu als onder de ene rubriek 30 stukken hangen (die dus allemaal met de zoekterm te maken hebben, ook al zit de term zelf niet in de beschrijving) en onder de andere maar 2? Hoe meet je dan de relevantie? Voorafgaand het presenteren van de zoekresultaten eerst alle stukken tellen die onder de getoonde beschrijvingen vallen? Dit wordt des te belangrijker als je meteen stukken toont (zoals het APE) en niet eerst archiefblokken (zoals gahetNA en Archieven.nl). Want als iemand alleen maar de zeg eerste tien of twintig treffers bekijkt, dan is dus de weging per treffer héél relevant om te bepalen en goed te presenteren. Of bladeren 'onze' klanten verder door, door alle (pagina's met) zoekresultaten heen?

Binnen de werkgroep MAIS-Internet/Archieven.nl zijn we een goede middag zoet geweest om hierover na te denken, maar uiteindelijk moesten we voorlopig concluderen dat het wegen van de relevantie (zeker bij het 'tellen van treffers') dan te veel tijd zou vergen, terwijl je je vanaf een zeker moment (maar welk?) af mag vragen hoe zinvol het dan nog is voor de gebruiker.

Opgemerkt nog dat er een verschil zit tussen treffers (onder een 'gevonden' beschrijvingsniveau) meewegen en meetellen.

Mooi onderzoek voor een student van Theo: hoe bepaal je de relevantie van treffers na een zoekopdracht in ons toegangenapparaat? En wat zijn dan eigenlijk treffers? En in hoeverre 'gebruiken' gebruikers de zoekresultaten van gahetNA, APE, Archieven.nl enzovoort op dezelfde manier als de zoekresultaten van Google?

Ivo Zandhuis
1337579040

@Ernest Complimenten voor dit gedetailleerd werk. Hopelijk daagt het ontwikkelaars uit om hier nog eens naar te kijken. Christian's reactie is daar het voorbeeld van.

@Christian Als ik het goed onthouden heb, heeft Zhang in zijn proefschrift hier al het een en ander over gezegd. Het maken van wat in de Information Retrieval een relevantiefunctie heet, is hogere wiskunde... Een student zou het misschien kunnen vertalen naar de werkvloer?

Ernest Verhees
1337588640

Het belang van sorteren op relevantie staat denk ik los van de presentatie van het zoekresultaat met archieven of meteen met bestanddelen. Bij Gahetna en archieven.nl spelen nu zelfs twee (relevantie)sorteringen, die van de archieven en die van de bestanddelen binnen de archieven. Het vraagstuk of mensen verder kijken dan de eerste treffers speelt nu ook, wie gaat nog naar archief 12 kijken na eerst de eerste 11 archieven te hebben opengeklikt en bekeken?

In plaats van veel investeren in relevantie bepalen (met volgens mij dezelfde conclusie als jullie bij Mais hadden en grote afhankelijkheid van de techniek) zou ik vooral kijken naar het filteren van een zoekresultaat. Het probleem van heel veel treffers speelt bij elk systeem, en staat eigenlijk los van zoeken in archieven. Hoe gaat bijvoorbeeld http://kranten.kb.nl/ hier mee om? over veel treffers gesproken!

Een hele concrete vraag, waarom niet overal het systeem van APE toepassen met het zoekresultaat? (en dan bedoel ik de lijstweergave)

Christian van der Ven
1337659560

@Ivo: Ik denk dat een van de 'problemen' met al het reeds gedane onderzoek dus is, dat veel uitkomsten daarvan niet onderling worden gedeeld, niet in een voor 'het veld' praktische vorm/vertaling beschikbaar zijn gekomen of opgepikt. Of wat dan ook. Onderwijs en beroepspraktijk zouden meer initiatieven moeten ontplooien om daar een brug te slaan. SNAAI organiseert bijvoorbeeld nog altijd de scriptiemiddagen, die ik jaren geleden zelf mee opzette. De doelstelling daarvan is iets anders, maar het zou goed zijn als er eens gezamenlijk werd nagedacht over het delen van kennis tussen onderwijs en beroepspraktijk. Dat lijkt me win-win.

@Ernest: Ook als je geen aandacht besteed aan relevantie, zit het in je product... Presentatie en relevantie zijn met elkaar verbonden. Aan de hand van de manier waarop zoekresultaten zijn gepresenteerd, bepaalt een gebruiker mede de relevantie van de gevonden treffers. Door onze keuzes in de manier van presenteren, bepalen wij mede wat we zelf meer of minder relevant vinden. Al gaat het maar om 'simpele' dingen als in welke volgorde treffers worden gepresenteerd, en welke gegevens er direct bij de zoekresultaten worden weergegeven en welke pas in een detailscherm of zo.

Zocht je 'vroeger' bij het BHIC met als zoekterm "raad van brabant" dan trof je pas na verschillende pagina's met zoekresultaten het archief van de Raad van Brabant. Waarom? Daar kwam alleen in de titel van het archiefblok die zoekterm voor. In talloze andere (nadere) toegangen kwamen verschillende stukken voor met in de beschrijving de zoekterm. Die treffers werden dus allemaal relevanter gevonden. Door nu in ieder geval zoektermen als die voorkomen in een titel hoger te waarderen dan zoektermen als die voorkomen in lagere beschrijvingsniveau's, zien de zoekresultaten er 'logischer' uit, met (in onze ogen) meer relevante resultaten bovenaan.

Waarom trouwens precies ooit een keuze is gemaakt om eerst (nadere) toegangen te tonen en pas na klikken de daarin gevonden treffers, dat weet ik niet. Misschien een kwestie van techniek? Misschien ook wel omdat een van de belangrijkere manieren om de relevantie van treffers bij archiefstukken te kunnen beoordelen, is door te kijken in welk archief (context) ze zich bevinden. Een soort eerste filter misschien (;-)) om het grote aantal treffers direct toe te spitsen op bepaalde archieven. (Dat filter zou je dan ook door de gebruiker zelf kunnen laten toepassen natuurlijk.)

Veel verder zijn we nog niet gegaan. Enerzijds is geprobeerd om via de kleinst mogelijke aanpassing zoveel mogelijk resultaat te boeken. Anderzijds is dat geprobeerd binnen de huidige techniek. Simpelweg omdat we nog veel meer kunnen bedenken (direct stukken presenteren in plaats van eerst (nadere) toegangen bijvoorbeeld), maar dat vereist méér aanpassingen, terwijl het effect daarvan vooralsnog onduidelijk is. Uit geen enkel mij bekend onderzoek (maar ik leer graag!) blijkt bijvoorbeeld dat een dergelijke presentatie 'beter' is voor gebruikers van de zoekmachine.

Da's dan ook het antwoord op jouw concrete vraag, waarom niet overal het systeem van APE toepassen met het zoekresultaat: waarom wel? Is die presentatie (met lijstweergave) beter gebleken door (gebruikers)onderzoek? Ik sluit dit beslist niet uit, maar ik neem het ook niet zonder meer aan. En het lijkt me goed als dáár onderzoek naar is gedaan, vóórdat we ingrijpende veranderingen doorvoeren in onze zoekmachines.

(Ernest, ik denk trouwens (net als jij) dat een presentatie van direct individuele treffers tonen uiteindelijk het beste zal blijken (en dan toegangen, nadere toegangen, rubrieken binnen toegangen, afzonderlijke stukken, vermeldingen in een index enzovoort door elkaar) met daar bovenop een snel filtersysteem. Maar nogmaals, het lijkt me goed als daar eerst gebruikersonderzoek naar wordt gedaan. Zoals Google ook geen enkele wijziging 'zomaar' doorvoert.)

Ernest Verhees
1337665140

Gezien je opening over bestaand onderzoek zijn totnutoe wel alle aanpassingen gedaan zonder dat hier een uitgebreid onderzoek aan ten grondslag ligt. Je hebt zelf ook bedacht (terecht) dat het beter is dat Raad van Brabant bovenaan staat. Sterker nog, ook de huidige inrichting is niet op onderzoek gebaseerd maar volgens mij nog steeds een gevolg van het papieren verleden van toegangen. Nu is een aanpassing naar de opzet van APE een behoorlijk grote stap uiteraard maar ik durf die gok wel aan, om te beweren dat dit voor veel bezoekers beter/duidelijker is. En als dit door een groot aantal collega's wordt gedeeld dan zie ik daar meer dan voldoende draagvlak voor en hoeven we niet 4 jaar te wachten op een wetenschappelijk onderzoek (waar ik zeer sceptisch over ben). Wat nu natuurlijk erg interessant is, is wat de overwegingen zijn geweest van APE?

Verwijderde gebruiker
1337676120

@Ernest: Ik ben het met je eens dat het sorteren op relevantie los staat van de presentatie van het zoekresultaat. Er zijn mensen die door heel veel resultaten gaan, soms er dagen over doen om door alle resultaten te gaan. Dat zijn geduldige mensen die gaan voor hoge 'recall' (dus willen zo compleet mogelijke verzameling van relevante resultaten hebben). Dit is voor zoekmachines geen uitdaging. Wel om relevante resultaten zo hoog mogelijk en eerder in de lijst met resultaten te krijgen. Je mening dat we "vooral [moeten] kijken naar het filteren van een zoekresultaat" (= faceted search) ipv het bepalen van relevantie (bijvoorbeeld door te kijken naar profielen/stereotypen). Alhoewel je zou kunnen zeggen dat het beide 2 kanten van dezelfde medaille zijn, maar met het filteren van resultaten is een interactief zoekproces voor gebruikers. Naast het stimuleren van interactie door gebruik te maken van filters, is er veel meer te winnen door de zoekmachine zo te ontwerpen met functionaliteit dat gebruikers naast het zoeken ook nieuwe dingen gaan 'ontdekken'. Dit kan toeval zijn, maar we kunnen die kans wel vergroten. Dat kan door het ondersteunen van serendipiteit tijdens het zoeken (denk aan: aanbevelingen van soortgelijke bestandsdelen, het presenteren/visualiseren op een geaggregreerd niveau van de informatie in tag clouds, tijdslijnen, kaarten ipv een traditionele lijst waar gebruikers doorheen moeten). Het bepalen van relevantie heeft minder meerwaarde, want of een beschrijving op plek 1 of plek 3 komt maakt weinig uit voor de gemiddelde bezoeker. Ook kan je je afvragen over relevantie wel zo absoluut is (en dus meer relatief)...maar binnen Information Retrieval onderzoek wordt dit statistisch weggewerkt vanwege de hoeveelheid aan data.

Ik kan je sceptisme over wetenschappelijk onderzoek op dit gebied wel begrijpen. Het is erg moeilijk om bijvoorbeeld onderzoek te vertalen naar "10 (of meer) gouden principes" om de toegankelijkheid van archieven te verbeteren. En om 4 jaar lang te wachten op resultaten (die wellicht niet komen) lijkt me zeker niet verstandig. Maar onderzoekers observeren en bestuderen bestaande phenomenen, en documenteren dit. Niets meer, en niets minder. De eerste stap om de toegankelijkheid te verbeteren is de effectiviteit van de bestaande toegankelijkheid meten. Dit is ook wat hier is gedaan (Gahetna versus APE). En ik denk dat zolang we die 'metingen' blijven doen, de toegankelijkheid (langzaamaan) wordt verbeterd. En soms moet je inderdaad een gok nemen. No guts, no glory.

Arnold Oppelaar
1337688540

Een mooie vergelijking van onze zoekresultaten op gahetNA en in APE! Wij hadden een vergelijkbaar probleem als dat bij de 'Raad van Brabant' in de reactie van Christian. Het kenmerkende voorbeeld was het archief van de VOC dat bij zoeken op VOC niet op de eerste pagina van de zoekresultaten terechtkwam. Naar aanleiding hiervan hebben we de zoekmethode aangepast, waarbij rekening wordt gehouden met de niveaus in de inventaris. Dat betekent dat één treffer in de titel van een archief nu hoger scoort dan meerdere treffers in losse inventarisnummers. De ontbrekende resultaten in 2.05.117 en 4 CBF zijn waarschijnlijk een (zeer) ongewenst bijproduct van deze aanpassing. Dat gaan we repareren. De manier van presenteren op gahetNA is inderdaad 'klassiek'. Zoals Christian opmerkt werkt het eerst tonen van de archieven waarin de treffers gevonden zijn als een soort filter dat er in ieder geval voor zorgt dat bijvoorbeeld treffers in kleinere archieven beter zichtbaar blijven en niet verdrinken in de massa. Het is een manier om de context van de zoekresultaten op hoofdlijnen mee te geven. Het tonen van alle onderliggende inventarisnummers bij een treffer in titel, rubriek of verzamelbeschrijving was een bewuste keuze. Rond de inventarisnummers bieden we immers ons pakket diensten aan: reserveren, scanning on demand, tonen van scans, transcriberen. Daar wilden we de bezoeker na een zoekactie (en de 'tussenstop' op archiefniveau) meteen toegang toe geven.

Christian van der Ven
1337741580

Ernest, jij draait het lekker om voor me... haha! Junte en Arnold, dank voor jullie (belangrijke) achtergrondinformatie en aanvulling.

Los van de vraag in hoeverre presentatie en relevantie al dan niet met elkaar verbonden zijn, kun je er niet omheen dat relevantie (zowel bij gahetNA/Archieven.nl als bij APE) van belang is. Voor Google blijkt het verschil tussen de posities 1 en 3 bijvoorbeeld al erg groot. Misschien geldt dit niet voor archiefgebruikers? Interessant om te onderzoeken (dat hoeft geen vier jaar te duren).

Voor de grote zoekmachines is een zo relevant mogelijk resultaat juist een van de eigenschappen waarmee zij zich profileren (en waar bijvoorbeeld bij Google de laatste jaren enorm veel aandacht naar is uitgegaan). Ook het personaliseren van het zoeken, van het zoekresultaat en het aanbieden van 'sociale functionaliteit' heeft (naast het mogelijk maken van serendipiteit) als grote reden het nóg beter laten aansluiten van een zoekresultaat bij de zoekopdracht van een individuele gebruiker. Dus het nóg relevanter maken van het zoekresultaat voor die gebruiker.

Ik ben de laatste die nooit wat 'guts' zal tonen door voortdurend te wachten op langdurig onderzoek. Aan de andere kant hebben archivarissen er al jaren een handje van om wel zelf te denken te weten wat 'het beste' is voor 'hun gebruikers'. Maar weten we eigenlijk wel wie zij zijn? Hoe zij zoeken? Waarop zij klikken?

Zoeken (en beoordelen en klikken en...) 'onze gebruikers' echt zo anders in 'onze systemen' als gebruikers van Google in Google? Of niet? Is daar al goed onderzoek naar gedaan?

Hoeveel gebruikersonderzoek doet de gemiddelde archiefdienst eigenlijk? Ik durf te wedden dat 90% van het 'veld' niet veel verder komt dan het laten invullen van de tweejaarlijkse kwaliteitsmonitor... Zet dat af tegen een bedrijf als Google, dat voortdurend (!) onderzoekt, experimenteert, test, aanpast, evalueert... Zij luisteren veel en veel beter naar 'hun gebruikers'. En ze luisteren niet alleen, ze kijken ook wat ze doen, en hoe, en waarom, en zo voort.

Kortom: ja voor het tonen van 'guts', maar ook ja voor het vaker luisteren en kijken naar 'onze gebruikers'.

Ernest Verhees
1337750280

@Christian We zijn het volgens mij helemaal met elkaar eens wat betreft het nut van relevantie én van het doen van uitgebreid onderzoek. Ik vrees alleen dat de de middelen (zeker van google) ons ontbreken voor dat onderzoek en dat onze systemen niet aankunnen wat we graag zouden willen (of dat dat heel veel geld gaat kosten). Je sprak eerder al over quick wins, daar zal de nadruk op moeten liggen (in tijd en geld). Maar onderzoek doen door 100 mensen Gahetna en APE te vergelijken lijkt me al een zeer nuttig en snel uit te voeren onderzoek, waar hopelijk dan ook duidelijke conclusies uit komen want zoals jij ook vaker zegt 'de gebruiker' bestaat niet.

@Junte en @Arnold bedankt voor jullie reacties, veel interessanter kan het volgens mij niet worden! goed om te lezen welke keuzes door Gahetna gemaakt zijn. Je laatste argument neigt wel erg naar het belang van het archief en niet naar dat van de bezoeker. Ik denk (zonder onderzoek) dat mensen redeneren dat in treffers altijd de zoekterm voorkomt (zoals bij google). Het gevolg van dit uitgangspunt is dat ik bij VOC (mooi bovenaan inderdaad, itt APE) maarliefst 17258 treffers krijg (alle bestanddelen hierin), en gesorteerd op inventarisnummer en niet op relevantie.

Probleem is natuurlijk dat elke methode zijn voor- en nadelen heeft en iedere bezoeker zijn eigen voorkeur zal hebben. Het zal kiezen worden en hoe meer onderzoek en luisteren hierbij kan helpen, hoe beter uiteraard maar kiezen welk systeem uiteindelijk "het beste" is (de minste nadelen heeft) zullen we toch moeten doen.

Verwijderde gebruiker
1337849580

@Christian Het verschil tussen plek 1 en 3 is inderdaad groot (maar dat hangt er vanaf). Dit verschil wordt minder belangrijk als je professionele zoekers met meer tijd. Ik ga ervan uit dat dit zo is voor archieven, maar een niet-professionele zoeker kan al weg zijn na 1 klik. Niet-professionele zoekers geven het sowieso snel op en snappen niets meer van zodra ze bij een inventaris komen en maken geen gebruik van de context (vermoedelijk te complex). Dit is ook wat ik zag in mijn analyse van de log data van het Nationaal Archief. Maar als ze wel gebruik maken van de context, dan nemen ze meer tijd, en dan lijkt mij relevantie van minder belang.

Ik zie dus een soort paradox: investeer in het verbeteren van de relevantie en verlies de bezoeker alsnog in de vervolgstap, of investeer niet in het verbeteren van de relevantie, maar in het verbeteren van de interactie en serendipiteit. Ik denk dat dit laatste een makkelijkere oplossing is, want de inventarissen zijn bedacht en traditioneel gebruikt om erin te bladeren (exploratief zoeken). Misschien is er toch geen paradox en kunnen we beide combineren. We zitten helemaal vast in het denken van de context/hierarchie en dat dit per se op een conventionele manier moet worden gepresenteerd. Ik laat een proefballon op voor een andere zoekmachine. Misschien dat we een zoekmachine/systeem kunnen maken die de hierarchie/context automatisch voor een gebruiker kan samenvatten in woorden in vaste patronen/sjablonen in Jip-en-Janneke taal. Voorbeeld: "amsterdam" komt voor in doos X binnen bestandsdeel Y in archief Z. Of: "Juliana" wordt genoemd in de inleiding van archief Z. Al deze resultaten vervolgens presenteren op de Google manier in een platte lijst (en beschrijvingen in X, Y en Z tegelijkertijd wegen), en dan filters en extra zoekmogelijkheden aanbieden, waarbij X, Y en Z als filters (facetten) kunnen worden gebruikt. Daarnaast kan de context weergave zoals bij APE gewoon worden gebruikt door liefhebbers die de boom in willen (no pun intended).

Wim van Dongen
1337900160

Excuses voor de late reactie, maar ik ben enkele dagen offline geweest om me aan de andere kant van de wereld even op heel andere dingen te kunnen concentreren (hoewel: zo heel veel anders was het nu ook weer niet: meedenken over het opzetten van een systeem voor het verzamelen, presenteren en delen van informatie, maar dan deze keer op basis van de EAC-CPF standaard; misschien kunnen we deze discussie hier ook een keer aanzwengelen, past m.i. prima in de archiefvisie, maar dat is een ander verhaal).

Allereerst een niet onbelangrijke kanttekening: uiteraard ben ik blij met deze vergelijking Gahetna / APE op basis van de inventarissen van het Nationaal Archief en wil ik daar graag aan bijdragen, maar hou er a.u.b. rekening mee dat de set NA inventarissen in Gahetna niet helemaal overeen komt met die van APE. De set NA inventarissen in APE is een moment opname van juli 2010. Sindsdien zijn wijzigingen in reeds bestaande NA inventarissen en nieuwe NA inventarissen wél in Gahetna opgenomen, maar niet meer in APE. Dit komt omdat het Gahetna framework nog niet in staat is om de volledige set NA inventarissen extern beschikbaar te stellen in de vorm van EAD/XML bestanden inclusief links naar digitale objecten en APE dat – vooral met het oog op doorlevering van informatie over digitale objecten naar Europeana – wél nodig heeft. Met het prepareren van de juli 2010 set NA inventarissen heeft het NA APE team destijds 'geprototyped' met het aanbrengen van links naar digitale objecten in NA inventarissen, in de hoop dat deze workflow ook in het Gahetna framework zou worden geimplementeerd, hetgeen tot op heden helaas nog niet het geval is. Maar – zoals ik eerder al heb gemeld – gelukkig wordt hier nu inmiddels aan gewerkt, want het is natuurlijk wel de 'core business' van APE om content te 'aggregeren' en continue (het liefst volautomatisch) up-to-date te houden. Voor zover ik kan nagaan is dit niet van invloed op het hier besproken voorbeeld "Waalbrug", maar natuurlijk kan dit bij eventueel vervolgonderzoek wél tot verkeerde resultaten c.q. interpretaties leiden.

Vervolgens betreffende de relevantie/presentatie discussie: ik denk dat relevantie en presentatie onlosmakelijk met elkaar zijn verbonden en dat het daarom belangrijk is de gebruiker te informeren over hoe het systeem dat hij/zij gebruikt op deze punten werkt, waarbij het de uitdaging is e.e.a. zo duidelijk mogelijk uit te leggen en daarbij zo min mogelijk (technische) voorkennis te veronderstellen. Zo'n uitgebreide APE handleiding staat hoog op de agenda, maar we zijn er helaas nog niet aan toe gekomen.

Toch alvast wat aanvullende informatie:

De keuze om naast hierarchisch gestructureerd zoeken ook zoeken op de Google-manier aan te bieden was snel gemaakt: dat is wat de meeste internetgebruikers verwachten en dat is waar ze inmiddels ook het meeste mee vertrouwd zijn. Vervolgens was het een logische stap om de voordelen van de beide zoekmethoden te combineren in de weergave van de zoekresultaten, onafhankelijk van de initieel gemaakte keuze voor een van de zoekmethoden, en daardoor gebruikers gemakkelijker te laten 'switchen' van de ene naar de andere methode. Dit niet zozeer om 'verstokte' gebruikers van een van de methoden kennis te laten maken met de voordelen van de andere methode, maar vooral ook om gebruikers door het aanbieden van verschillende zoekmethoden en verschillende presentaties van zoekresultaten gemakkelijker op onverwachte, onvermoede zoekresultaten te laten stuiten.

Uiteraard is relevantie het meeste van belang bij de presentatie van de zoekresultaten in de Lijst-weergave, dus bij de Google-methode. Binnen APE wordt die bepaald door de velden (lees: EAD elementen) die al of niet in de indexering mee lopen, in combinatie met een standaard solr/lucene algoritme. Daar is uiteraard uitgebreide discussie aan vooraf gegaan, niet op de laatste plaats omdat de werkwijze voor alle deelnemende archiefinstellingen acceptabel moet zijn. Immers verschillen in de technische implementatie van EAD tussen diverse archiefinstellingen kunnen worden opgevangen door te kiezen voor (interne) conversie naar een uniforme EAD implementatie (APE EAD), maar inhoudelijke verschillen in EAD implementaties, waardoor sommige EAD elementen voor bepaalde archiefinstellingen belangrijker (lees: relevanter) zijn dan voor andere, zijn niet zo eenvoudig technisch te ondervangen. Wat dat betreft is – no offence – het implementeren van een website voor de weergave van content van één enkele archiefinstelling eenvoudiger dan het opzetten van een portal voor de content van meerdere archiefinstellingen en zeker als die dan ook nog eens in verschillende landen liggen met verschillen in tradities en 'best practices' voor het beschrijven van archiefmateriaal, alle standaarden ten spijt.

Dit betekent concreet bijvoorbeeld dat je niet zomaar even je configuratie aan kunt passen om bepaalde zoektermen binnen de data-set van bepaalde archiefinstellingen beter/hoger te laten scoren in het geheel (wat dat betreft verschilt de APE Lijst-weergave nadrukkelijk van de Google-methode ;-)). Dit neemt niet weg dat je toch problemen zoals hier gesignaleerd met de zoektermen "Raad van Brabant" en "VOC" op kunt lossen en de manier waarop dat binnen APE gebeurd is dan tevens een mooi voorbeeld van hoe relevantie en presentatie in elkaar grijpen en van dat de kennis over hoe dat in elkaar steekt eigenlijk onmisbaar is: binnen de APE Lijst-weergave kun je eenvoudig filteren op "archievenoverzicht" binnen "type toegang" en dan krijg je alleen inventarissen te zien waarin de opgegeven zoekterm in de titel staat. Zo krijg je dus één hit met "Waalbrug", twee hits met "VOC" en geen hit met "Raad van Brabant" (de betreffende filtering is dan ook in dit geval niet beschikbaar), hoewel die laatste zoekterm – ongefilterd – wél 466 zoekresultaten geeft. Conclusie: APE bevat dus (nog) geen inventaris met "Raad van Brabant" in de titel.

Verder blijft APE natuurlijk een 'work in progress'. De huidige versie is gebaseerd op de kennis en ervaring van specialisten van diverse Europese nationale archiefinstellingen die daarbij gebruik konden maken van ervaringen met en 'use cases' van de eigen websites/portals. Voor de doorontwikkeling van APE zijn al een aantal release cycli in het APEx projectplan vastgelegd en de technische en functionele specificaties daarvoor zullen worden vastgesteld op basis van een "to do"-lijst van het APEnet project, een grondige evaluatie van de huidige versie en de specifieke APEx doelstellingen. Daarbij zullen niet alleen de specialisten van de oude en de nieuwe project partners worden ingeschakeld, maar ook de gebruikers zelf, via nog te organiseren gebruikers onderzoeken. Uiteraard zullen los daarvan ook alle relevante opmerkingen van Europese archivarissen- en archiefgebruikers-gemeenschappen in overweging worden genomen en in die zin zijn discussies als deze dan ook heel waardevol voor het project.

Tenslotte @Junte:

Zoals al eerder gemeld: de door jou voorgestelde "Jip-en-Janneke-benadering" heeft het NA APE team ook al min of meer geimplementeerd (naast de hierarchisch gestructureerde en de Google-achtige benadering) en wel in de vorm van de (APE) EAD naar (Europeana) ESE mapping. Het resultaat daarvan is te zien in de Europeana weergave van informatie over gedigitaliseerd NA materiaal. Die weergave is nog wel voor verbetering vatbaar, maar dat is weer een ander verhaal.

Christian van der Ven
1337920680

@Ernest: De middelen van Google ontbreken ons inderdaad (wat heet!), maar we kunnen wél leren van de kennis en ervaringen van anderen, die bijvoorbeeld via weblogs en video's online worden gedeeld.

Een tijd terug had ik trouwens eens het plan om gewoon zelf kleine usabilityonderzoekjes uit te voeren: iemand achter een pc zetten, opdrachten erbij en camera erop. Misschien ooit nog eens... Sluit aan bij jouw idee om de website van het RAN te laten testen (was het tijdens de KVAN-dagen van vorig jaar, niet?)

@Junte: Jouw onderzoek in logbestanden van het Nationaal Archief is erg interessant. Het publiek van het Nationaal Archief is echter op punten niet vergelijkbaar met het publiek van regionale en lokale archiefdiensten. Het aantal 'professionele' (onder)zoekers is bijvoorbeeld een stuk groter. Dit kan van invloed zijn op de manier waarop het zoeksysteem ingericht zou moeten worden (of niet).

Het valt mij trouwens op de studiezaal heel vaak op, hoe 'simpel' toch onze 'diepgravende' onderzoekers soms zoeken... en hoe 'simpel' ze de zoekresultaten interpreteren.

Overigens deel ik je mening, dat de gemiddelde archiefgebruiker meestal meer tijd zal besteden aan het doorbladeren van de zoekresultaten, dan de gemiddelde gebruiker van Google.

Ik ben het ook met je eens, dat we bij het inrichten van onze zoeksystemen duidelijk moeten kiezen voor een doelgroep. Mijn moeder hoeft er wat mij betreft geen wijs uit te kunnen, maar de gemiddelde heemkundige moet er toch redelijk een weg in kunnen vinden, vind ik.

Jouw voorstel voor een Jip-en-Jannekezoekmachine is het nader uitwerken trouwens beslist waard. :-)

Feit is (in ieder geval voorlopig) nog wel, dat hoe eenvoudiger we het maken, hoe meer mensen zullen kunnen zoeken en vinden, maar er zullen altijd (en dan misschien nóg meer) mensen blijven (zoals mijn moeder) die uiteindelijk, hoe dan ook, teleurgesteld zullen zijn. Simpelweg omdat het in de meeste gevallen nog slechts toegangen blijven. Terwijl Google uiteindelijk leidt tot content. Nou goed, een bekend verhaal.

Ik zou van dit onderwerp bijna een speel-en-deelsessie willen maken...

@Wim: Heel helder verhaal; APE blijft inspireren!

Deel

Help

Archieven zoeken bij Gahetna en Archieven Portaal Europa

Reacties

Trefwoorden

Deel

Help

Archieven zoeken bij Gahetna en Archieven Portaal Europa

Reacties

Trefwoorden

Verken

Notariële archieven en het opvolgersarchief van de KNB

Een wiki maken

Wat mij opviel... is dat Yvette ziek is, beterschap !