Wat ik heb geleerd over Open Data

  • sep 2012
  • Ernest Verhees
  • ·
  • Aangepast 27 jun
  • 1
  • 28
Ernest Verhees
KIA Community
  • Verwijderde gebruiker

Gisteren was in Gouda de zeer interessante startbijeenkomst van een Community of Practice over Open Data bij archieven. Presentaties van Arjan den Boer (AB-Cmedia) en Sjoerd Siebinga (Delving) en van Lotte Baltussen (Open Cultuur Data/Beeld en geluid) zorgden voor de voeding voor de discussies. Gert Jan van Bussel vroeg vervolgens in zijn key-note wat we geleerd hadden. Hierbij een poging dat op te schrijven (het half A4tje haal ik niet, het is wat langer geworden).

Als je als organisatie er eenmaal voor gekozen hebt om Open Data beschikbaar te stellen en hiervoor tijd en eventueel wat budget beschikbaar hebt gesteld, zijn er volgens mij twee obstakels: het auteursrecht en de techniek. Open Cultuur Data stelt dat minimaal de CC licentie naamsvermelding – gelijk delen gebruikt moet worden, wil er sprake zijn van Open Data. Om een CC-licentie te geven moet je wel het auteursrecht hebben. Iets dat onder het publieke domein valt (als het auteursrecht dus is vervallen of niet van toepassing is), kan geen CC-licentie krijgen.

Metadata en content

Vooral voor het auteursrecht is het belangrijk om onderscheid te maken tussen de metadata (beschrijvingen) en de content (de scans). In het algemeen is het auteursrecht voor de metadata minder problematisch dan voor de content. Voor de metadata is het van belang dat je goede afspraken over het auteursrecht hebt met vrijwilligers of derden die in opdracht inventarissen maken. Medewerkers in dienst van het archief hebben geen auteursrecht op hun werk, dat ligt bij de werkgever. Daar komt bij dat er geen auteursrecht op feiten liggen, zo leerde ik! De scheiding tussen een subjectieve en een feitelijke beschrijving van een foto, akte of dossier is alleen niet altijd duidelijk. Een datum of een naam van een akte lijkt me een feit, een beschrijving van een foto niet. Een beschrijving van een dossier of charter lijkt me een lastige…zit daar veel subjectiviteit in? maar in de inventaris als geheel waarschijnlijk wel.

Het grootste deel van het digitaal materiaal van archieven zijn foto’s en hierbij doet zich vaak het vraagstuk van het auteursrecht voor. Bij het meeste archiefmateriaal is het auteursrecht niet van toepassing en zal eerder privacygevoelige informatie een belemmering zijn. Vervelende is dat Open Data vooral belangstelling krijgt (waarschijnlijk) als er plaatjes bij zitten en daarbij zullen foto’s meer gewaardeerd worden dan scans van de notulen van 1825. Het meest gedigitaliseerde archiefmateriaal betreft genealogische bronnen en daarvoor zijn allerlei verdienmodellen bedacht, via Wiewaswie met name. Die scans en metadata zullen vermoedelijk niet snel als Open Data beschikbaar komen.

Een nieuw inzicht leverde de opmerking dat je een CC-licentie geeft op het werk en niet over een bepaalde resolutie van de scan. Als je er voor kiest om alleen lage resoluties scans of thumbs beschikbaar te stellen onder een CC-licentie dan geldt die CC-licentie ook voor de hogere resoluties van dat werk. Alleen die stel je dan niet vrij beschikbaar. Als iemand die hogere resolutie dan bij je bestelt kun je alleen kosten rekenen voor de levering (administratie e.d.) maar geen kosten voor het gebruik hiervan of extra eisen hieraan stellen. De CC-licentie is immers van toepassing!

Hoe beschikbaar stellen

Als we de techniek erbij betrekken kom ik tot de volgende opties van beschikbaarstellen, van eenvoudig tot zeer bewerkelijk en tegelijkertijd van minst wenselijk tot ideaal. In alle gevallen is alleen metadata makkelijker dan metadata én scans.

1. d.m.v. een eenmalige datadump (in XML)

2. d.m.v. een OAI-PMH koppeling

3. d.m.v. een API

4. gecombineerd met vergelijkbare data van andere instellingen in een platform/portal waaruit dan weer respectievelijk een dump, koppeling of API mogelijk is.

5. als Linked Open Data

Voor alle varianten moet iets gemaakt worden in het beheerssysteem en daarbij is een xml-dump makkelijker gerealiseerd dan een API, los van de welwillende medewerking van de leverancier. Dat optie 4 het meest bewerkelijke is, zal vermoedelijk wel duidelijk zijn. Het veronderstelt immers overeenkomstige metadata, oftewel standaarden en het houden hieraan door de samenwerkende instellingen (zie het wiewaswie dossier). Linked Open Data blijft voor mij nog steeds een zwart gat.

Als ik bedenk wat we redelijk eenvoudig zouden kunnen doen, kom ik tot het als Open Data beschikbaar stellen van metadata met daarbij deeplinks (persistent identifiers) naar de content op onze eigen website. Voor het tonen van de scans daar is immers de toestemming geregeld. In sommige gevallen zou ook content geleverd kunnen worden. Twee voorbeelden uit onze Nijmeegse praktijk, hoewel we eigenlijk niet beseften dat dat als Open Data beschouwd kan worden. We hebben een OAI-PMH koppeling met de inhoudelijke beschrijvingen van onze bibliotheekcollectie met daarin een link naar het record in de Digitale Studiezaal, voor als je het boek zou willen aanvragen en in enkele gevallen de scan van het boek. Daarnaast hebben we op Flickr een set oorlogsfoto’s waarvan wij de rechten hebben maar met erg weinig metadata onder een CC-licentie vrijgegeven. Het gaat dus eigenlijk om een dump uit ons systeem maar Flickr heeft weer een API om er meer mee te kunnen doen. Dat dat gebeurt door https://twitter.com/OA_WO2 leerde ik gisteren!

Synchronisatievraagstuk

Tot slot, een probleem waar ik nog geen antwoord op heb. Hoe nieuw gecreërde metadata bij de content weer in ons systeem te krijgen en wat als we zelf in de eerder geleverde Open Data verbeteringen maken in ons eigen systeem. Een synchronisatievraagstuk dus. Dit probleem voedt volgens mij de angst dat er allerlei (verouderde) varianten van je data gaan rondzwerven.

Maar toch al veel geleerd dus, al moet dat eigenlijk nog blijken na het lezen op Open Cultuur Data (ga ik nu doen) of na reacties hierop. Maar erover nadenken en opschrijven is ook al leren…denk ik…

Reacties

één reactie, 1 oktober 2012

Trefwoorden