Data Liberation Front

  • okt 2010
  • Verwijderde gebruiker
  • ·
  • Aangepast 27 jun
  • 31
  • 41
Verwijderde gebruiker
KIA Community
  • Chido Houbraken
  • Daniel van Bokhoven
  • Bennie Blom
  • Ivo Zandhuis

Vorige week had Yvette in haar weekoverzicht een inspirerend filmpje van van Joshua Robin van de Massachusetts Department of Transportation over het openstellen van de data rondom buslijnen in Massachusets.

Wat hebben buslijnen en archieven gemeen zul je je afvragen? Meer dan je denkt! De kern van Robins betoog is gooi nu eens eerst die data open en ga daarna pas aan de slag met het bedenken wat je met die data wilt doen. Precies wat we volgens mij in ons veld ook meer zouden moeten toen. En in tegenstelling met hoe we ’t in de dagelijkse praktijk nog te vaak aanpakken.. . We bedenken eerst mooie dingen die wij en de gebruikers (zouden) willen hebben. Waarna we alles inrichten in, op en rond dat ding en tot slot de data wordt toegevoegd.

In plaats van 1->2->3 moeten we de zaken omdraaien zegt Robin 3->2->1 doen. Sterker nog, laten we alleen 3 doen de rest wordt wel opgepakt in de markt, in de community, de crowd.

En die oproep raakte bij mij een gevoelige snaar. Dit omdat we de afgelopen jaren druk bezig zijn geweest met het ontsluiten van data vanuit onze depots, vanuit onze collecties. Maar nog meer zijn we bezig geweest met het bedenken van prachtige initiatieven, grootse zaken en vergezichten. Hebben velen van ons geparticipeerd regionale initiatieven, in nationale projecten, in internationale portals. Dit wordt ook deels aangejaagd door de overheid die geld beschikbaar stelt voor dergelijke plannen en ontwikkelingen. Dan weer licht de focus op het genereren van content, verplaatst de ambitie zich naar een nationale infrastructuur en zijn we de laatste tijd beland in de Zeitgeist van de digitale duurzaamheid.

En daar is natuurlijk niets op tegen, want in zulke verbanden worden nuttige vragen opgeworpen en mooie resultaten geboekt. Maar soms bekruipt mij het angstige gevoel… Wat heb ik van al die inzet gemerkt, wat heeft de gebruiker er van meegekregen? In grote lijnen weten we toch allemaal waar de problemen, de uitdagingen en de oplossingen zitten en zijn we al druk bezig die in meer of mindere mate toe te passen op onze collecties binnen onze instellingen.

En toch merkt die buitenwereld er zo weinig van. In dat oogpunt is het filmpje (wachtwoord brain) van Brain (focusgroep dienstverlening archieven) verhelderend.

Die gebruiker snapt er af en toe helemaal niets meer van. Klaarblijkelijk hebben al die jarenlange goede voornemens, projecten en programma’s voor de gebruiker niet gebracht wat die al lang verwachtte.

Tijd voor een radicale breuk! Focus je op de data, bevrijd de data! We weten min of meer hoe. Qua standaarden, richtlijnen, protocollen hebben we de afgelopen jaren enorme stappen gemaakt en weten nu inmiddels echt wel hoe het werkt. Tijd om het zelf, van onderop in praktijk te brengen.

Doe zoals Flickr, Twitter, het inspirerende Brooklyn Museum ja zelfs de NOS (sinds kort) doen. Breng de data naar buiten, zet ze open biedt ze aan, biedt API’s en pas al dat is er is, knoop het aan elkaar, beter nog laat anderen het aan elkaar knopen!

Reacties

31 reacties, meest recent: 26 oktober 2010
  • Waar kan ik tekenen onder dit pamflet/deze petitie?

    Ivo Zandhuis
  • Gisteren heb ik de 'Case against Data Lock-in' gelezen: http://queue.acm.org/detail.cfm?id=1868432Dit stuk verwoord exact de pijnpunten waar grote platformen die data van gebruikers gebruiken een keer tegenaan gaan lopen. Google snapt dat en neemt daar een serieuze voortrekkersrol in en heeft dus ook de discussie rondom open data op gang gebracht; zeker rondom private collecties. Iets met aan elkaar knopen met API's ben ik ruim twee jaar mee bezig om te ontdekken wat er mogelijk is. Ik moet ook nog een keer een blog schrijven *schaam* hier over mijn eindexamenwerk die laat zien hoe je een persoonlijk privé archief kunt voorstellen rondom alle digitale sporen die we achterlaten. Zelf denk ik dat alles rondom open data te maken heeft met het vertrouwen van je gebruikers, bezoekers, klanten etc. Op dit vlak valt er namelijk nog zo ontzettend veel te winnen als je het op de juiste manier weet te communiceren.

    Verwijderde gebruiker
  • Daarnaast wil ik nog even vermelden dat de Data Liberation Front wel een bijzonder slimme marketing truc is van Google ;-)

    Verwijderde gebruiker
  • Tim, recht uit jouw hart, maar ook uit het mijne. Bij het Regionaal Archief Tilburg wil ik proberen deze focus nu eerst eens gerealiseerd te krijgen en vooral niet zelf in producten te blijven denken. Daar zijn anderen veeeel beter in dan wij als archiefdiensten. Wij zijn goed in data toegankelijk maken, tenminste, dat zouden we moeten zijn. :) Mij heb je helemaal mee!

    Verwijderde gebruiker
  • @Sebastian Ik ben eigenlijk wel benieuwd naar die nog te schrijven blogpost. Dus mocht je daar nog aan toekomen...? Plaats 'm dan ook even op dit platform. Overigens denk ik at je gelijk hebt wat betreft het DLF :-P @Ivo Misschien maar eens zo'n online petitie opstarten ;-) @Ingmar Zo zie je maar weer, hoe gefocussed je bent op producten (maken) (in dit geval weer een API) waardoor je soms vergeet dat het zelfs nog een stapje eenvoudiger kan. @Luud Daar ben ik heel benieuwd naar hoe jullie dat gaan doen en vooral ook wat er dan wellicht staat te gebeuren. Houd ons op de hoogte!

    Verwijderde gebruiker
  • Van het delen van informatie worden we allemaal beter, is mijn ervaring. Het vrij beschikbaar stellen van gegevens uit en over archieven zou eveneens op groter schaal moeten gebeuren. Helaas is niet iedereen mentaal al zover, ook niet in onze organisatie. Maar de archiefinventarissen komen beschikbaar, in ruwe vorm en dus niet alleen in het product "archieftoegangen op een website". Ook niet in een csv-formaat, maar in XML. We hebben de collectie EAD-toegangen inmiddels twee keer op verzoek uitgeleverd. Over enkele maanden zullen ze downloadbaar zijn. Wellicht wil Ingmar of Ivo daarvoor wel een tooltje maken om ze naar csv-formaat om te zetten ;-) Overigens, als die busmaatschappij geld zou verdienen aan de verkoop van hun dienstregelingen, zouden ze deze data nooit vrij beschikbaar stellen. Ze hopen ermee te bereiken dat de informatie over hun producten, te weten: public transportation, meer onder de aandacht van de potentiële reizigers wordt gebracht. Dát is hun product, en daar ligt hun winst, of liever, minder verlies. Wat wíj ermee winnen, weet ik niet. Ik ben benieuwd. P.S. Ik had niet verwacht dat anderen mij nog eens zouden wijzen op een relatie tussen buslijnen en archieven.

    Verwijderde gebruiker
  • @Luud Zoiets ja of nee eerder Data naar vóóórúúúh ;-) Hoewel een beetje afstemming en vergaderen over zo'n onderwerp natuurlijk helemaalk geen kwaad kan. Wat dat betreft is zo'n blog altijd een mooi podium om de boel even net wat scherper neer te zetten. @Ingmar Shhht, het moet nog wel een beetje ingewikkeld laten klinken ;-) @Henny Da's inderdaad altijd goed om eens na te denken wat wij er mee winnen. In potentie een beter geinformeerde burger? Meer aanvragen op de studiezaal. Wat dat betreft is dat wat minder eendimensionaal dan de busmaatschappij. Leuk dat je even aanstipt dat de EAD-toegangen downloadbaar zullen zijn. Een XML naar CSV converter, ik ben helemaal voor ;-)

    Verwijderde gebruiker
  • Wat leuk dat de boodschap van het filmpje jou net zo heeft geraakt als mij! Er zijn zoveel leuke producten mogelijk met onze data, dat wil ik niet laten beperken door onze eigen creativiteit :-) Open die hap. Naast de toegangen in XML komen op de nieuwe site ook de nadere toegangen/indexen in XML formaat beschikbaar, dus ik ben heel benieuwd wat daar mee gedaan zal worden.

    Verwijderde gebruiker
  • @Henny @Tim Excel kan trouwens gewoon XML bestanden lezen en CSV-bestanden uitspugen, dus daar is je 'tooltje'!

    Verwijderde gebruiker
  • @Yvette Zie je wel, het hoeft allemaal niet zo lastig en ingewikkeld te zijn ;-)

    Verwijderde gebruiker
  • @Yvette: Inderdaad, met een EAD in DTD opgemaakt lukt het, maar met een - valide ! - EAD in Schema crasht de boel. @Ingmar: Het is toch een ietsie pietsie lastiger en ingewikkelder. Bovendien, heb je wel eens een spreadsheet gezien opgemaakt vanuit een ingewikkeld XML-bestand als EAD? Ziet er net zo onoverzichtelijk uit als het XML-bestand zelf. Maar een handige programmeur met ideeën kan er vast iets moois van maken, zodra de bestanden ook gemakkelijk bereikbaar zijn. Of een conversie naar csv dan noodzakelijk is, betwijfel ik. Je maakt het er niet eenvoudiger door en je gooit informatie weg. @Iedereen: Wat mij betreft: liever vandaag dan morgen de archiefinventarissen voor iedereen vrij beschikbaar. Als archiefdienst word je toch niet rijk van de verkoop van archiefinventarissen ;-)

    Verwijderde gebruiker
  • @Yvette @Henny Volgens mij is Het Semantisch Web/Linked Open Data daarin juist het ei van columbus:je kunt de rijkheid van je data behouden, zelf relaties leggen met data elders en tooltjes gebruiken die de data handig kunnen verwerken. Nog een voordeel: het klinkt toch nog ingewikkeld :-) Ik ben benieuwd naar jullie reactie op 22 november (en hoop dat ik de verwachtingen die ik loop te wekken kan waarmaken....)

    Ivo Zandhuis
  • @Ivo Helemaal mee eens! Door deze draad heb ik echt zin in het moment dat die XML-downloads bij ons werken. Dan ga ik met Yahoo Pipes of zo spelen om te zien wat ik er allemaal mee kan. Ik denk bijvoorbeeld aan een Google Map met herkomstplaatsen van onze VOC-opvarenden of landverhuizers. Jummie!

    Verwijderde gebruiker
  • De discussie is inmiddels verschoven van de wenselijkheid naar de methode. Dat is mooi. Maar zijn er dan geen tegengeluiden? Of preken we hier alleen voor eigen parochie? Ik vermoed dat er wel tegenstanders zijn, want anders was het allang gebeurd. Wellicht durven die zich hier niet te roeren, of zijn ze geen lid van deze community.

    Verwijderde gebruiker
  • @Henny Ja, we preken voor eigen parochie. Dus er zijn zeker tegengeluiden. (Ik hoor ze geregeld). Ik geloof daarom dat we moeten laten zien wat het belang is door het te *doen*. Als Yvette haar Google Map gemaakt heeft en er ontstaat op sommige plaatsen de 3-2-1 volgorde der dingen, kan dat volgens mij niet anders zijn, dan dat de andere parochies overtuigd raken van ons geloof. Meer waarschijnlijk is dat tegengeluiden ook kernen van waarheden hebben die worden meegenomen in een uiteindelijke oplossing. Het *doen* heeft tot gevolg dat wij zo snel in termen van methode en techniek denken. En waarom het niet eerder is gebeurd? Dat is een kwestie van techniek geschiedenis. Als we mobiele telefoons zo handig vinden, waarom hadden we die dan niet al in 1980? De natuurwetten waarop e.a. is gebaseerd waren er toen ook al. Trouwens: kreeg gisteren te horen dat iemand EAD naar RDF aan het converteren is. Zie eens hoe snel het gaat, als het doorbreekt! Dan lijkt het net alsof we gek zijn dat we het nooit eerder hebben gedaan.

    Ivo Zandhuis
  • Ik vind het , net als Henny, ook opvallend dat er geen tegengeluiden zijn (haha). We zijn helaas nog erg conservatief met onze gegevens/informatie/archieven. De voorzieningen om data open te maken kosten ook geld dus die initiatieven en investeringen worden omdat er nog geen grote roep is vooralsnog afgehouden. Het is daarom jammer dat de richtlijnen voor hergebruik van informatie en de beleidslijn Naar optimale beschikbaarheid van overheidsinformatie zich alleen uitspreekt over de Wet Openbaarheid van Bestuur en dus de informatie die bij de administraties liggen. Ik denk net als Ivo dat goed voorbeeld doet volgen en dat maakt me ook nieuwsgierig naar het idee van Yvette. Indien iemand voorbeelden heeft van gebruik van data van archiefinstellingen nodig ik die uit het via dit forum even te laten weten.

    Bennie Blom
  • Voor de duidelijkheid: het gaat hier om niet-gegeorefereerde foto's, de coordinaten worden er op basis van geografische namen in de beschrijving bij 'gegokt'.

    Verwijderde gebruiker
  • @Bennie De beleidslijn verwijst inderdaad eerder naar informatie die bij de administraties ligt. Misschien is aansluiting zoeken bij de initiatieven vanuit de administratie een goede weg om op gang te komen. Waarom immers zelf het wiel uitvinden?. Rotterdam is met de eerste stappen bezig. Op Rotterdam Open Data wordt daarvan bericht gedaan. Binnenkort is er een overleg over het verder beschikbaarstellen van rotterdamse datasets. Heb om een uitnodiging gevraagd en hoop daar iets te kunnen aanbieden. Ik zal er over berichten. Mooi voorbeeld vindt ik ook het Londonse initiatief .

    Daniel van Bokhoven
  • Vandaag gelezen: "Overheid moet geen dataondernemer zijn". Archieven beschikken natuurlijk bij uitstek over grote hoeveelheden data. Juristen betogen dat wij dus niet zelf producten en diensten moeten ontwikkelen die ook commercieel kunnen, maar ons moeten beperken tot beschikbaar maken van de data.

    Verwijderde gebruiker
  • Nah! Wat een eyeopener! Als juristen dat kunnen bedenken, dan sluiten we ons daar toch gewoon bij aan! :)

    Verwijderde gebruiker
  • @Henny @Yvette Het voordeel (de wenselijkheid) van open data voor archiefdiensten zit 'm nu net in het niet hoeven ontwikkelen van producten en diensten. Het basaal aanbieden van de gegevens is - vermoed ik - veel goedkoper dan de producten en diensten die nu gezamenlijk ontwikkeld worden. Ik wijs alleen maar even op het project Wiewaswie dat een gesloten en betaalde dienst levert op basis van eigenlijk vrijelijk beschikbare data. Als je ziet wat dat project kost aan tijd en geld, vraag ik me af of je al die data niet gewoon in ruwe vorm per archiefdienst had kunnen aanbieden en een commerciële partij of (waarschijnlijker) een professionele amateur vanzelf iets was gaan bouwen. Ik zou niet verbaasd zijn als het geld bespaart om data (wel álle data en volledig open) alleen in ruwe vorm aan te bieden.

    Chido Houbraken
  • @Chido: Ik denk dat je gelijk hebt. Maar ik denk wel dat ruw of basaal aanbieden van de data zoals die nu beschikbaar is onbruikbaar voor gebruikers is. Er zal wel enige structuur in moeten zitten om de gebruikers fantastische zaken te laten ontwikkelen. Wat dat betreft zetten we met de inventarissen al een stap maar juist deze gegevens (nadere toegangen) zijn veelal niet gestructureerd en niet voorzien van metadata. ik denk overigens wel een verandering op komst is wat dat betreft al is het maar omdat er steeds meer beseffen wat mogelijk is en waar we als archivaris een belangrijke functie en mogelijkheden hebben om archieven in de etalage te zetten. Moeten we alleen nog slim op omgaan met kosten en inkomsten! Ik sluit me in ieder geval aan bij je redenering.

    Bennie Blom
  • @Bennie Zeker, er moet iets van structuur in zitten. De vraag is of het niveau van structuur dat de gemiddelde archivaris als voldoende beschouwt niet veel te hoog is. "We" hebben al gauw de neiging om het pas aan te bieden als het perfect en compleet is. Zo vraag ik me af in hoeverre de gebruikers zitten te wachten op de inventarisstructuur die wij als standaard hanteren. Begrijp me niet verkeerd, ik ben een groot voorstander van vakmatig ordenen, maar ik betwijfel of dat de structuur is waar de mash-up enthousiastelingen en app-bouwers in de meeste gevallen op zitten te wachten. We zullen ergens een tussenweg tussen beroepseer en praktijk moeten vinden ;-)

    Chido Houbraken
  • @Bennie Hoe bedoel je: "deze gegevens (nadere toegangen) zijn veelal niet gestructureerd en niet voorzien van metadata"? En als je de nadere toegang nu eens als metadata beschouwt? "Deze geboorte akte gaat over de geboorte van ". Dan *is* de nadere toegang toch data die we beschikbaar kunnen stellen als een "dataset" (meer cf. de termen van de overheidsdataset van www.data.gov.uk, data.gov en de eerder genoemde gemeentelijke voorbeelden van Londen en Rotterdam.)? Dit geeft aan de professionele amateur (trouwens leuke contradictio in terminis in de pure zin van het woord) ruim voldoende structuur om iets leuks van te maken. Toch? En inderdaad: ook al zou er nog meer structuur *kunnen* zijn, dat neemt niet weg dat we de structuur die er al wel is kunnen aanbieden: het kan dan alleen nog maar mooier worden. Bezuinigingstip? Zet je data open online en schrijf een prijsvraag uit: "wie maakt de mooiste website voor onze dienst!" Prijs: jaar lang gratis koffie in de studiezaal. Deze koffie houd je toch over, want daar komt niemand meer :-)

    Ivo Zandhuis
  • @Chido: Ik denk dat het best mogelijk is een structuur op te zetten waarbij zowel eenvoudige toegangen als complexe toegangen een plaats moeten vinden. Maar ik weet ook hoe die discussies gaan en hoe we kunnen verzanden in details. Ik ben het met je eens dat we niet moeten wachten totdat de perfecte structuur er is want dan missen we de trein. Maar ja we kunnen ook niet gewoon data wegzetten zonder te zeggen wat die data voorstelt. Gewoon beginnen zeg maar.Wat dat betreft moeten we veel kunnen leren van de ervaringen van Wiewaswie en ik hoop dat je opmerking in je eerdere reactie er een plaats gaat vinden.

    Bennie Blom
  • Nadere toegangen (NT's) hebben uiteraard wel een structuur, zij het niet altijd dezelfde. Bij het NA hebben alle 120 NT's in één MySQL-database ondergebracht. Daarbij is gepoogd deze NT's ook in één structuur onder te brengen. Dat was niet eenvoudig, maar het is gelukt. We onderscheiden nu een tiental entiteiten (persoon, geografische_aanduiding, persoon, organisatie, rol, relatie, verwijzing, adres, schip, overige). Per NT wordt voor elke entiteit een label met de specifieke betekenis van de naamgegevens vermeld. Bijvoorbeeld in de NT op militaire stamboeken: "naam militair" bij de waarden in het naamveld van de entiteit "persoon". De resultaten hiervan, nu betrekking hebbend op bijna drie miljoen 'entries', zal in 2011 beschikbaar komen via de website van het NA. Helaas is (nog) niet voorzien in het beschikbaar stellen van déze data in ruwe vorm. Dat is immers tot op de dag van vandaag geen vanzelfsprekendheid, waardoor er in het project ook geen aandacht is geschonken. De aard van het materiaal en de structuur van de database verzetten zich er niet tegen. Wél moeten we dan eerst weer een applicatie bouwen om de dataset (niet alles, want de database bevat ook niet openbare gegevens) om te zetten in een of ander formaat waarmee derden iets kunnen. Dat zal er ooit wel eens van komen, maar niet op korte termijn.

    Verwijderde gebruiker
  • Over een aantal jaar hebben veel archieven een API waarmee de openbare erfgoed data kan worden gebruikt door derden. Hoe realistisch is dit beeld? Zelf zou ik het een welkome aanvulling zijn in de wereld van data via het internet.

    Verwijderde gebruiker

Trefwoorden