Wiki Loves Archives, Wikidata en DBpedia

  • nov 2013
  • Ernest Verhees
  • ·
  • Aangepast 27 jun
  • 15
  • 41
Ernest Verhees
KIA Community
  • Verwijderde gebruiker
  • Christian van der Ven

Vorige week mochten Christian en ik op de Wikimedia Conferentie Nederland een presentatie geven over archieven en Wikipedia. De culturele sector was al goed vertegenwoordigd met toelichtingen over de Wikipedian-in-Residence bij het Nationaal Archief en KB en over Open Glam. Ons doel was te wijzen op de beschikbaarheid van archiefbronnen en vooral van de beschrijvingen op internet en te kijken hoe die het beste in Wikipedia verwerkt kunnen worden. (lees verder algemene verslag van Christian en op Wikimedia Commons onze presentatie ).

Christian noemde enkele voorbeelden van verwijzingen in artikelen naar archieven bij het BHIC, zoals Zwart Front, Filips van Leefdael en Illustre Lieve Vrouwe Broederschap. Ik ben vooral ingegaan op het gebruik van inleidingen van inventarissen en dan vooral van de geschiedenis van de archiefvormer. Die informatie is immers meteen beschikbaar (i.t.t. de meeste bronnen) en in de meeste gevallen auteursrechtelijk gezien vrij beschikbaar. Bovendien biedt dit in veel gevallen de meest uitgebreide beschrijving van de betreffende organisatie of persoon, zoals bijvoorbeeld van de KNVB bij Gahetna (vgl. artikel Wikipedia).

Helaas is al die informatie vaak verstopt in lange teksten in de toegangen en nog gericht op een papieren uitgave (zie ook voorbeeld KNVB). Al eerder schreef ik over onze poging die beschrijvingen in een kennisbank beter te presenteren, daarbij gebruik makend van ISAAR als beschrijvingsstandaard (vgl. informatie in inleiding KNBLO en in KNBLO in kennisbank). De volgende stap (wens) is om die informatie makkelijk, dus geautomatiseerd, in Wikipedia te krijgen om gebruik en bekendheid te verveelvoudigen. Uitgangspunt is dat je de gegevens over de archiefvormer gestructureerd hebt en kunt exporteren, allebei liefst volgens bepaalde standaarden. Na de presentaties over Open Glam en over Wikidata, contact met iemand van Dbpedia en wat verder lezen online stel ik me hierbij het volgende voor.

Ideale plaatje

Open Glam is een tool/applicatie om op makkelijke wijze grote hoeveelheden afbeeldingen (scans, foto’s) in Wikimedia Commons te uploaden. Een mooie live-demo liet zien hoe gemakkelijk dit is en iedereen met een open dataset mét metadata (en met toegang tot de tool) zou hier makkelijk foto’s aan Wikimedia Commons willen toevoegen. Ik ga zeker kijken hoe we dit kunnen doen met de set van de Nijmeegse vierdaagse.

Zou het niet mooi zijn als iets vergelijkbaars kan met (meta)data van archieven of archiefvormers? Rechtstreeks een grote hoeveelheid data invoeren in Wikipedia is onmogelijk maar als ik het goed begreep kan dit wel (of is het de bedoeling) dat dit via Wikidata kan. Zoals je nu bij een artikel in Wikipedia voor afbeeldingen kunt putten uit Wikimedia Commons, zou je dat voor data uit Wikidata kunnen doen.

Het is dan alleen nog wel afwachten of en hoe de data dan gebruikt gaat worden op Wikipedia, al is die noodzaak er wel minder want de data is al beschikbaar op Wikidata en wordt mogelijk al geautomatiseerd elders herbruikt en getoond. Mischien kun je er op de lange termijn wel beter voor zorgen dat je data in Wikidata komt dan in Wikipedia?

Datzelfde geldt misschien ook wel voor DBpedia, dat géén onderdeel is van de Wikipedia-familie maar wel put uit gegevens in Wikipedia maar die alleen anders opslaat en presenteert (namelijk machineleesbaar). Het is alleen wel eenrichtingsverkeer van Wikipedia naar DBpedia en andere bronnen gebruikt DBpedia niet, behalve door er koppelingen mee te maken (als onderdeel van Linked Open Data). Voor DBpedia geldt dus je data zelf als LOD moet publiceren en alleen de link (of een identificatienummer) invoeren in Wikipedia óf al je data invoeren in Wikipedia, en dan vooral in de Infoboxen en zorgen dat die sjablonen zijn gemapt in DBpedia. Laatste is wel te doen maar het eerste is veel werk.

Zo is er bij Infobox kunstenaars een koppeling met de grote database van het RKD, op basis van een nummer. Alleen die is nog bijna nergens (zie bijv, Rembrandt) ingevuld. Begrijpelijk ook, want erg veel werk. Het zou ook makkelijker moeten kunnen. Het RKD kan ongetwijfeld voor een export zorgen van kunstenaars met een id. Die lijst zou je moeten mappen met de kunstenaars in Wikipedia en dan automatisch het nummer moeten kunnen toevoegen aan de Infobox van de betreffende kunstenaar. Op dezelfde wijze zouden ook links naar archieven bij organisaties dan toegevoegd kunnen worden. Het ideale plaatje is dan:

1. beschikbare data bij archief

2. import hiervan in Wikidata en koppeling met bestaande gegevens

3. gebruik hiervan in betreffende artikelen in wikipedia in infoboxen (door automatische of handmatige oproep van die gegevens, vgl. afbeeldingen)

4. door gebruik in infobox wordt de data opgenomen in DBpedia (als het sjabloon is gemapt) en is beschikbaar als LOD

De variant is dat je zorgt voor links in Wikidata naar de data die je zelf, bij voorkeur als LOD, online presenteert. Er is een overzicht van partners met data voor Wikidata (waaronder Europeana).

Concreet vervolg: archief infobox

Voor bovenstaande allemaal kan, zullen er nog wel wat zaken geregeld en gebouwd moeten worden. De eerste stap die gezet kan worden is het handmatig aanvullen en verbeteren van Infoboxen (en eventueel ook teksten) in Wikipedia en het laten aansluiten van de infoboxen op DBpedia.

Het zou natuurlijk mooi zijn als de informatie over en de link naar de (toegang op de) archieven in een eigen archief-infobox zou komen, bijvoorbeeld zoals in de Nijmeegse wiki. Dat vergt wel enige voorbereiding, zeker ook om van de Wikipedianen hiervoor akkoord te krijgen.

Reacties

15 reacties, meest recent: 13 oktober 2014
  • Hoi Ernest, dank voor je verslag! Ik heb het nog niet allemaal doorgenomen en bekeken, maar zullen we voor ideevorming en praktische uitwerking rond de infobox een Google Doc aanmaken en de link hier openbaar maken?

    Christian van der Ven
  • goed idee, dat google doc. het is wel zoeken naar tijd hiervoor overigens...dus het kan even duren voordat ik iets bijdraag.

    Ernest Verhees
  • Dan alvast een eerste voorzet mijnerzijds. Ik heb zojuist een openbare Google Doc gemaakt waaraan iedereen kan bijdragen. In de Google Doc kunnen we ook discussiëren. Als iedereen dat in een andere kleur doet en bovenaan meldt wie welke kleur gebruikt, dan komen we uiteindelijk vast tot een goed voorstel.

    Christian van der Ven
  • Hee Ernest,

    goed initiatief, maar ik zou jullie willen aanraden om ipv een Google Doc dit direct op Wikipedia te doen. Dat kan prima op bijvoorbeeld de overlegpagina over sjablonen:

    https://nl.wikipedia.org/wiki/Overleg_Wikipedia:Sjablonen

    Het is mij nog een beetje onduidelijk wat jullie precies voor Infobox willen, eentje voor archieven? Overigens zou je ook prima een opzetje kunnen maken door in je eigen gebruikersruimte (dus Gebruiker:Jouwnaam) een testje te doen (onder Gebruiker:Jouwnaam/opzet sjabloon).

    Verwijderde gebruiker
  • @Hay: Dank voor de tips! Een van de vragen in de Google Doc was al, hoe we dit idee onder de aandacht van de Wikipedia-community konden krijgen. Dus deze suggestie van jou is bijzonder welkom.

    Wat we precies willen, wordt in het Google Doc hopelijk al wel duidelijk: een infobox bij Wikipedia-lemma's waarin informatie komt te staan over (de verblijfplaats van) het archief van de in het Wikipedia-lemma beschreven persoon of organisatie of iets dergelijks (dus de archiefvormer).

    Een beetje zoals nu al in de voorbeelden in Ernests verslag (bijvoorbeeld Filips van Leefdael) en dat in combinatie met de infobox die gebruikt wordt in de wiki Huis van de Nijmeegse geschiedenis (bijvoorbeeld KNLBO).

    Het maken van een opzet in onze eigen gebruikersruimte lijkt een goede zet, om heel concreet te maken wat we willen. Ga ik doen.

    Christian van der Ven
  • Dag Christian,

    laat maar weten als je meer hebt. Overigens vraag ik me wel af wat de meerwaarde is van een infobox tov het opnemen in de lopende tekst zoals Ernest heeft gedaan bij van Leefdael. Bij de website van het Huis van de Nijmeegse Geschiedenis snap ik dat, het is tenslotte de eigen website van het archief, maar op Wikipedia denk ik wel dat je dan heel duidelijk moet maken wat daar de toegevoegde waarde is.

    Verwijderde gebruiker
  • @Hay: Goed punt, dat we die meerwaarde wel duidelijk moeten maken voor de Wikipedia-community.

    Het voorbeeld bij Leefdael was van mijn hand. Het idee is om dit soort informatie gestructureerd op te nemen, meer dan bij Leefdael het geval. Ik merk nu in mijn pogingen, dat de verwijzing naar het archief steeds weer op een iets andere manier gaat (soms bij een externe link, soms als bron, soms met aanvullende informatie). Bij een artikeltje over Van den Eerenbeemt, waar ik ongeveer hetzelfde had gedaan, verplaatste iemand de (externe) link daarna zelfs naar in de tekst zelf (wat mij ooit was afgeraden). Ik begreep de reden daarachter wel, maar bedacht me ook, dat het goed zou zijn als zo'n verwijzing naar een archief steeds op gelijke wijze zou worden gelegd. Bovendien is die informatie dan via zo'n infobox direct makkelijker toegankelijk voor geautomatiseerde verwerking, bijvoorbeeld via een project als DBpedia. Naast deze twee voordelen, lijkt een derde me, dat dan andere archiefmedewerkers op dezelfde wijze in Wikipedia kunnen werken. Dit voorkomt dat in Wikipedia op allerlei verschillende manieren wordt verwezen naar archieven, wat me Wikipedia ten goede lijkt te komen.

    Maar als 'de community' de manier van Leefdael prefereert, dan worden we even zo goed vrienden hoor. :-) Misschien wil men ook zo veel mogelijk een 'wildgroei' aan sjablonen tegengaan of zo...

    In januari ga ik er werk van maken.

    Christian van der Ven
  • Vorige week heb ik het met Gerard Kuys en Gerald Wildenbeest hier over gehad. Daar kwamen onder meer twee belangrijke aanvullingen op de conclusies in mijn verslag uit.

    Het is namelijk toch wel mogelijk dat DBpedia verrijkt wordt met andere databronnen dan uit Wikipedia. DBpedia bestaat voor 80% uit extractie van de data uit Wikipedia en gebruikt daarvoor vooral de sjablonen. Daarnaast komt er ook data uit andere bronnen (verrijkingen). Voor de import hiervan in DBpedia is wel contact nodig met de beheerders van DBpedia. Dit is bij voorkeur RDF-data maar xml-bestanden kunnen hier redelijk eenvoudig naar overgezet worden, begreep ik. In theorie kun je dus een lijst met archiefvormers met links naar de inventaris online aanleveren waarna die lijst (deels automatisch en deels handmatig) gekoppeld wordt met artikelen in DBpedia. Dit koppelen kan het beste op basis van bepaalde eigenschappen, zoals begin- of einddatum. Die extra gegevens voor de controle moeten dus ook in het aan te leveren bestand zitten én als eigenschappen in DBpedia al bekend zijn. Dat laatste is waarschijnlijk nog beperkt het geval. Bij personen is dit mogelijk nog het makkelijkste met geboorte- en sterfdata. Uiteindelijk wordt de link naar de inventaris van het archief een eigenschap van de organisatie/persoon.

    Maar hiermee staat die link echter nog niet op Wikipedia en daar zal die voorlopig het meest gebruikt worden. Naast de variant van de opname hiervan in een sjabloon bij een artikel is er een andere optie. Deze is iets minder ideaal maar kost ook minder inspanning (en mogelijk minder bezwaren van de community). Je zou namelijk kunnen kiezen voor de oplossing zoals die voor monumenten is gedaan, namelijk in een lijst met daarbij enkele kenmerken én een link naar de beschrijving van dat monument in het monumentenregister: Lijst van rijksmonumenten Nijmegen .

    Deze manier vertalen zou dan leiden tot een Lijst van archieven bij het Regionaal Archief Nijmegen. Dit zou een apart artikel kunnen worden of een paragraaf in het artikel van Regionaal Archief Nijmegen. Ik zag in het artikel van Archief Eemland al een globale opsomming. Het lijkt me onverstandig om in zo'n lijst al je archieven te zetten maar meer de belangrijkste, zoals bijvoorbeeld links naar gemeentearchieven die je beheert.

    Het voordeel van deze lijsten, opgezet zoals de monumenten, is dat DBpedia deze ook kan uitlezen en verwerken.

    tot slot, ik zag gisteren op Eenvandaag het item Nadert het einde voor Wikipedia? en gebrek aan oplossingen voor de genoemde problemen. Gebruik van databestanden via imports in Wikidata of rechtstreeks zouden volgens mij hier wel iets in kunnen betekenen. Een op wikipedia actieve archiefwereld ook natuurlijk.

    Ernest Verhees
  • Prachtige quote trouwens in die reportage: "Hierin [in een papieren encyclopedie] kan ik niet meer zoeken, dan moet ik echt gaan lezen. Dat is het nadeel."

    @Ernest: Juist vanwege de eerste regel van jouw derde alinea ga ik voorlopig nog altijd voor de optie Wikipedia. En aangezien DBpedia liefst op basis van sjablonen informatie binnenharkt, is dit een van de voordelen van zo'n infobox voor archieven.

    Zo'n lijst, da's trouwens ook een prima idee zeg. Het overwegen beslist waard, vanwege de door jou genoemde voordelen.

    Twijfel heb ik daarbij alleen, omdat een dergelijke lijst ('archievenoverzicht') op zich niet leidt tot een 'oplossing' voor het 'probleem': iemand googelt op de naam van een persoon of organisatie, vindt het artikel in Wikipedia en wordt vervolgens niet gewezen op het archief. Met zo'n lijst zou dat nog steeds niet het geval zijn. Of er moet vanuit lemma's alsnog naar die lijst worden verwezen en van daaruit dus naar de gegevens over het archief. Maar dat voelt voor mij toch een beetje als een extra klik...

    Christian van der Ven
  • Ben het helemaal met je eens. De verwerking in sjablonen op wikipedia is het beste en de lijst een minder ideaal alternatief, dat echter wel veel minder werk kost.

    Ernest Verhees
  • De term "belangrijkste archieven" is natuurlijk ook heel tricky om te hanteren.

    Een directe link (al dan niet in een infobox) met een wikilemma is in mijn ogen toch echt het beste. Dan heb je namelijk relevante informatie geaggregeerd bij elkaar staan. Een lijst van archieven kan iedereen ook bij ons op de website zien. En dan volledig.

    Ik heb jaren geleden bij alle lemma's van onze gemeenten de link naar onze website opgenomen. Bv, https://nl.wikipedia.org/wiki/Alphen-Chaam. Dat zou nog specifieker kunnen, maar dat zouden we dan binnen onze website moeten regelen.

    Persoonlijk vind ik dat dus de beste oplossing - relevante koppelingen (links) naar meer, verdiepende informatie.

    Verwijderde gebruiker
  • Heren, voordat jullie beginnen met het bedenken van zo'n Infobox denk ik dat het een goed idee is om eerst een wat praktijkvoorbeelden te nemen en te kijken wat daar de toegevoegde waarde is. Waarom maken jullie niet een lijstje van een stuk of tien Wikipedia-lemma's en geven daarbij aan wat er precies in aangepast zou moeten worden qua archiefvorming?

    Verwijderde gebruiker
  • @Hay: Er hoeven misschien niet zozeer lemma's te worden aangepast, het gaat er ons vooral om dat bij een lemma op de een of andere manier gewezen gaat worden op de vindplaats van de originele archiefbron(nen) van de in het lemma beschreven 'archiefvormer' (dus niet noodzakelijkerwijs de bron van het lemma op zich). Maar het geven van een paar praktijkvoorbeelden is een goed idee. Een aantal van die voorbeelden is er ook al (alhoewel niet in infobox-vorm) dus we moeten ons idee eens op een rij zetten met de voorbeelden erbij.

    Christian van der Ven
  • Enkele updates bij mijn blog.

    De presentatie van de beschrijving van de KNBLO op onze eigen website (digitale studiezaal) is sterk verbeterd in de nieuwe versie (in het blog staat een dode link). Bij het archief staat een korte beschrijving van de archiefvormer, met een verwijzing naar de uitgebreide beschrijving  in onze kennisbank (wiki Huis van de Nijmeegse Geschiedenis).

    Het genoemde onderzoek naar het toevoegen van de foto's van de vierdaagse die we als Open Data beschikbaar stellen aan Wikimedia Commons via de GLAMwiki tool strandde al snel op onze kennis/vaardigheden. Deze uitleg maakt je toch wat aan het schrikken. Maar gelukkig zijn dankzij een actieve wikipediaan alle foto's sinds vorige week beschikbaar. Prachtig voorbeeld hergebruik Open Data!

    Op 14 november is er een workshop over Wikidata voor culturele instellingen. Daar hoop ik weer wat wijzer te worden over dit onderwerp.

    Ernest Verhees

Trefwoorden