Google en het SW
Naar aanleiding van een opmerking van Bob Coret (als hij iets zegt moeten we dat absoluut serieus neme...
Vandaag was ik in De Waag in Amsterdam bij de "data clinic" Hacking Heritage van Erfgoed en Locatie. De dag bestond uit twee elementen: 's morgens gingen we zelf aan de slag met onze data en 's middags dachten we na over interessante toepassingen van de dataset voor verschillende soorten publiek. Een verslag van mijn ervaring met standaardiseren van gemeentenamen en "wat te doen met een gedigitaliseerd bevolkingsregister?" Op de website http://www.erfgeo.nl/ is het mogelijk om na te gaan welke unieke code je kunt gebruiken om een locatie te identificeren. Bij voorkeur is de identificatie een zogenaamde URI, zodat daarmee een aansluiting op het Semantisch Web straks tot de mogelijkheden behoord. Maar ook zonder Semantisch Web is het nuttig om een unieke identifier te gebruiken om een plaats vast te leggen.Voor het experiment maakte ik gebruik van een dataset die ik heb gemaakt voor het historisch onderzoek dat ik doe naar de spoorwegstaking van 1903 in de Centrale Werkplaats in Haarlem. Ik ben nagegaan welke personen op dat moment werkzaam waren op werkplaats. Dankzij het bevolkingsregister van Haarlem weet ik de geboorteplaatsen van deze medewerkers. Mijn ambitie: teken een kaartje van Nederland waarop is te zien in welke gemeentes de medewerkers uit 1903 zijn geboren.Ik ken het initiatief NLGIS van het Internationaal Instituut voor Sociale Geschiedenis waarmee dit soort kaartjes kunnen worden getekend op basis van een excelsheet (of beter: een csv-bestand). In dit bestand moeten twee kolommen zijn opgenomen: één voor de gemeente en één voor het aantal medewerkers dat er was geboren. De voorwaarde is dat de gemeente is gecodeerd met behulp van de Amsterdamse Code.In mijn dataset waren de geboorteplaatsen echter niet gestandaardiseerd, laat staan met de Amsterdamse Code. De vermelding van de geboorteplaats, afkomstig uit het bevolkingsregister, was precies overgenomen, al dan niet verkeerd gespeld. De standaardisatie kon ik uitvoeren met behulp van een tool op erfgeo. Het proces verliep vrij vlot. Sommige bugs konden ter plekke door Petra Dreiskämper worden opgelost. Na twee uur kon ik het bestand met gestandaardiseerde plaatsen downloaden. Van de 1268 personen in de dataset kon ik met zekerheid 1240 personen van een gestandaardiseerde gemeente-uri voorzien. De 28 anderen kwamen uit het buitenland of hadden een geboorteplaats die ik niet kon relateren aan een gemeente.Erfgeo standaardiseert naar de uri van gemeentegeschiedenis.nl. Maar ik moest de Amsterdamse Code hebben. Op gemeentegeschiedenis.nl kan ik daarvoor de API aanspreken, maar Menno den Engelse hielp mij snel aan een koppeltabel waarmee ik van elke uri een Amsterdamse Code kon afleiden.De tijd om zelf te spelen was toen voorbij. Met spijt in mijn hart, want niets is leuker dan spelen met spoorwegstakers...De discussie over de mogelijkheden van een gedigitaliseerd bevolkingsregister die daarna volgde bleek echter niet minder interessant. Ik schoof aan bij medewerkers van Het Utrechts Archief om na te denken over: "wat te doen met een gedigitaliseerd bevolkingsregister?". Op Vele Handen wordt deze door vrijwilligers toegankelijk gemaakt. Alle personen worden ingevoerd, met geboorteplaats en geboortedatum, samen met de adressen waar ze woonden. We ontwikkelden een idee waarbij een app voor op een smartphone een persoon uit het register voor je uitkiest, die je door de stad kan volgen, langs de adressen waar deze persoon woonde. Het is daarbij mogelijk dat deze persoon, net als jij man of vrouw is, (ongeveer) dezelfde leeftijd heeft en/of geboren is in dezelfde plaats als jij. Deze persoon uit 1900 was dan je persoonlijke rondleider door "ze stadsjie". Wild idee, maar wel inspirerend!Vanavond is het gelukt om mijn gestandaardiseerde data allemaal te koppelen. Et voila: het kaartje is gelukt. Lichtblauw zijn de gemeentes waar 1-2 personen zijn geboren, donkerblauw: 2-3 personen, lichtgroen: 3-6, donkergroen: meer dan 6. Wat opvalt zijn de grote hoeveelheid gemeentes in Noord-Holland (meer dan Zuid-Holland dat geografisch net zo ver weg is) waar vandaan medewerkers van de werkplaats afkomstig waren. Niet heel academisch, maar wel een leuke oefening. Volgende keer ga ik eens kijken hoe die getallen uitwerken als ze relatief worden naar het aantal inwoners van een gemeente.
Conclusie: de samenwerking van allerlei losse initiatieven (variërend van gemeentegeschiedenis, erfgeo en nlgis) maakt het mogelijk dit soort kleine projectjes in relatief korte periode uit te voeren. Het maakt me nieuwsgierig naar wat de toekomst brengt!
Reacties
Interessante exercitie, Ivo! Die Amsterdamse Code vind ik mooi, maar tricky. Heel nuttig, maar wie houdt het bij? Maw, wie is 'proceseigenaar'?
Dankje. Je moet een hobby hebben :-)
Zoals bij alle vormen van centrale registratie van stamgegevens valt of staat een geode toepassing inderdaad bij het onderhoud van de informatie. In het geval van gemeentes: of het nu Amsterdamse Codes, Gemeentegeschiedenis uri's of CBS-codes zijn iemand moet het bijhouden. Ook hier wringt de wet van het kip en het ei: als het veel gebruikt wordt, is er een belang en neemt iemand de verantwoordelijkheid op zich om het te onderhouden. Aan de andere kant gaan veel mensen het pas gebruiken als ze er vertrouwen in het hebben dat het wordt onderhouden...
Voor de Amsterdamse Code lijkt nu voldoende draagvlak te ontstaan om het te beheren. Het IISG publiceert nu op nlgis.nl veel oude dataset waarin deze code is verwerkt, dus daar is nu een belang...
Dag Chido en Ivo, de Amsterdamse Code (amco) is door Onno Boonstra is recentelijk in beheer gegeven aan het IISG. De amco is destijds tot 1997 gemaakt en op dit moment ben ik bezig om een project te creëren, waarbij we de kaarten voor 1998-2015 maken en vervolgens jaarlijks updaten. Over het 'tricky' gedeelte van deze code: uiteraard is de tand des tijds scherp, maar de code wordt door diverse projecten gedragen (Historische Steekproef Nederland, Gemeentegeschiedenis.nl, nlgis.nl) en verschijnt daarnaast diverse keren per jaar in internationale wetenschappelijke tijdschriften in onder meer de historische demografie en sociologie.