Medewerkers die stelen
Ik lees zojuist in het Archievenblad nr. 1 van 2011 over de diefstal door een medewerker van het Sta...
In reactie op het artikel in NRC's Wetenschaps Katern stuurde ik een ingezonden brief. Natuurlijk had ik ook een ander platform kunnen kiezen om mijn reactie te publiceren. Maar het meeste wat ik stel, hoef ik gelukkig de meeste van jullie niet meer uit te leggen. De NRC lezers - vond ik - hadden echter recht meer achtergrond en nuance. Zij betalen immers met hun belastinggeld onze digitaliseringsprojecten. Mijn reactie is echter geleidelijk aan uitgekleed.
Mijn eerste reactie was als volgt:
Karel Berkhout en de door hem opgevoerde sprekers lopen in zijn artikel in het Wetenschapskatern van 10 september over het drama bij de digitalisering van erfgoed in een klassieke val. Van automatisering wordt door hen verwacht dat binnen een onrealistische periode een onrealistisch doel wordt bereikt. De computer lost helaas niet meteen al uw problemen op. Vaak zijn menselijke factoren van grote invloed op het eindresultaat. Er is weldegelijk sprake van een drama, maar in het drama hebben niet alleen wetenschappers en erfgoedinstellingen een rol. Ook het bredere publiek en hun bestuurders doen mee in het spel.
Het artikel gaat met name in op de digitalisering van relatief modern, gedrukt erfgoed. Het merendeel van ons geschreven erfgoed (over foto's, bewegend beeld en beeldende kunst heb ik het nog niet eens) is echter handgeschreven, getypt materiaal of goedkoop drukwerk. Als de in het artikel genoemde norm van één fout per 10 pagina's wordt gehanteerd, zijn deze bronnen niet geschikt voor de automatische verwerking tot machineleesbare informatie. Waar de sprekers in het artikel dus eigenlijk voor pleiten is om deze bronnen dan maar niet te digitaliseren. En dat terwijl 80% toegankelijkheid op woordniveau nog steeds meer is dan 0%. Natuurlijk kunnen we de percentages opkrikken door handmatige correcties uit te voeren. Het valt te prijzen dat dit de DBNL wel lukt, maar dit kan niet voor elke soort materiaal kostenefficient worden gerealiseerd.
Veel van de (impliciete) functionele wensen die de geesteswetenschappers in het artikel uiten, zullen daarnaast pas kunnen worden gerealiseerd ofwel met onrealistisch veel geld ofwel met toekomstige technische ontwikkelingen. De wijze waarop we bijvoorbeeld op dit moment data op internet beschikbaar stellen, maakt het eenvoudig realiseren van een gezamenlijke catalogus niet mogelijk. Nieuwe inzichten hierover worden geleidelijk aan door Europeana in Europees verband geïmplementeerd, maar worden pas enkele jaren door een breder publiek omarmd. Ik denk daarbij voornamelijk aan de techniek die “Linked Open Data” wordt genoemd. Ook de OCR van bijzonder materiaal zal in de toekomst steeds verder verbeteren.
Ik ben daarom bang dat Mijnhardt teleurgesteld raakt, als hij hoopt de digitalisering van het erfgoed nog mee te maken. Dat is helaas het lot deel uit te maken van een bepaalde generatie. Wim van den Berg krapt zich waarschijnlijk ook wel een keer achter zijn oren als hij hoort dat René van Stipriaan zijn hele proefschrift in één avond overdeed.
Er zijn dus verkeerde verwachtingen van wat de automatisering op dit moment voor de geesteswetenschapper kan betekenen. Wellicht dat toekomstige technische ontwikkelingen hierop beter inspelen. Automatisereerders werken echter beter als zij worden gevoed met functionele wensen. Tot nu toe hebben geesteswetenschappers het hier af laten weten.
Belangrijkste factor die de ontwikkelingen hebben bepaald zijn echter te vinden bij de mens: welke verwachtingen waren er van bestuurders, politici en daarmee van de maatschappij? Twee voorbeelden van projecten geven hierin meer inzicht.
De doelstelling van het Geheugen van Nederland was om het erfgoed onder aandacht te brengen van een breed publiek en het onderwijs. Het verwijt dat wetenschappers niet kunnen werken met het Geheugen van Nederland is daarom onterecht. Functionele wensen van wetenschappers zijn niet meegenomen. Je kunt er wel over twisten of dat de beoogde doelstellingen wel zijn gehaald, maar dat debat gaat dan over onderwijs en het brede publiek en niet over wetenschap.
Een voorbeeld van een meer gestructureerde aanpak van digitalisering van erfgoed is gericht op genealogen; een groep niet-professionele gebruikers van erfgoed die in hun vrije tijd hun familiestamboom uitzoekt. Voor archiefdiensten vormt dit de grootste doelgroep en bij de meeste archiefdiensten zijn genealogische bronnen daarom op de website te raadplegen. Genealogen zijn wel blij met een kwaliteit van 80% omdat ze zich realiseren dat ze anders bepaalde voorouders niet of met buitengewoon veel moeite hadden kunnen terugvinden. Ook hier wil ik niet beweren dat de automatisering zonder fouten verloopt. Hopelijk kan de binnenkort te lanceren website wiewaswie.nl haar beloftes op dit gebied waarmaken.
Bij het Geheugen van Nederland en bij de digitalisering van materiaal voor genealogen hebben erfgoedinstellingen zich keurig gehouden aan de eisen die hieraan door haar bestuurders werden gesteld: het inzetten van een verandering van saai en voor professionals naar interessant en voor het brede publiek. De geesteswetenschappers hebben zich in deze maalstroom niet voldoende hard kunnen maken voor hun positie. Deze is daarin ondergesneeuwd. Maar nu erfgoed niet meer wetenschappelijk maar cultureel heet te zijn, dreigen erfgoedinstellingen plotseling slachtoffer te worden van de anti-elitaire bezuinigingswoede, dus wellicht keert het erfgoed zich weer vanzelf naar de geesteswetenschap.
Met de bovenstaande tekst heb ik het drama willen nuanceren. Wil ik betogen dat er geen sprake is van een drama? In het geheel niet: alle in het artikel geconstateerde pijnpunten worden terecht opgevoerd als projecten waarvoor het schaamrood op de kaken niet misplaatst is. Ondanks jarenlange inspanningen van ondermeer DEN is er nog steeds geen sprake van een breedgedragen, samenhangende visie, waarin zowel het brede publiek, onderwijs als wetenschap een plaats vindt. Standaardisatie speelt daarbij inderdaad een belangrijke rol. Standaardisatie in de ICT kan echter niet zonder controle door een bevoegde autoriteit. Zoals bij DigiNotar regelmatig controles door derden hadden moeten plaatsvinden, moeten ook erfgoedinstellingen en hun ICT-leveranciers geregeld worden onderzocht op het juiste gebruik van de standaarden.
Maar belangrijker is de ontwikkeling van kennis die het mogelijk maakt om duurzame keuzes te maken. Als bijvoorbeeld bladzijdes goed (duurzaam) gescand zijn, kunnen ze in de toekomst met verbeterde OCR opnieuw worden verwerkt. Als data eenvoudig toegankelijk is kan gemakkelijker een website worden ontwikkeld die aan de wensen van een specifieke doelgroep voldoet. En misschien over twee jaar een nieuwe verbeterde versie. Erfgoedprofessionals moeten zich concentreren op de ontwikkeling van deze kennis. Ze zullen onlosmakelijk verbonden zijn met hun professie in de toekomst.
Op verzoek heb ik toen mijn reactie aangescherpt en beperkt tot mijn belangrijkste punten (maximaal 350 woorden):
Het artikel over het digitale drama in NRC van 10 september behoeft enige nuancering. Het gaat met name in op de digitalisering van relatief modern, gedrukt erfgoed. Het merendeel van ons geschreven erfgoed (over foto's, bewegend beeld en beeldende kunst heb ik het nog niet eens) is echter handgeschreven, getypt materiaal of goedkoop drukwerk. Als de in het artikel genoemde norm van één fout per 10 pagina's wordt gehanteerd, zijn deze bronnen niet geschikt voor de automatische verwerking tot machineleesbare informatie. Vreemd dat men ontevreden is met bv. 80%, terwijl dat nog steeds meer is dan 0%. Natuurlijk kunnen we de percentages opkrikken door handmatige correcties uit te voeren. Het valt te prijzen dat dit de DBNL lukt, maar dit kan niet voor elke soort materiaal kostenefficiënt worden gerealiseerd. Tweede punt is het volgende. Bij het Geheugen van Nederland (een idee uit de jaren '90!) en bijvoorbeeld bij de digitalisering van materiaal voor genealogen hebben erfgoedinstellingen zich keurig gehouden aan de eisen die hieraan door haar bestuurders werden gesteld: het bereiken van een breed publiek. De geesteswetenschappers hebben zich in deze maalstroom niet voldoende hard kunnen maken voor hun positie.
Ondanks jarenlange inspanningen van ondermeer DEN is er nog steeds geen sprake van een breedgedragen, samenhangende visie, waarin zowel het brede publiek, onderwijs als wetenschap een plaats vindt. Standaardisatie speelt daarbij inderdaad een belangrijke rol. Erfgoedinstellingen en hun ICT-leveranciers moeten daarbij geregeld worden onderzocht op het juiste gebruik van de standaarden. Belangrijker is echter de verspreiding van de kennis die het mogelijk maakt om duurzame keuzes te maken. Als bijvoorbeeld bladzijdes goed gescand zijn, kunnen ze in de toekomst met verbeterde OCR opnieuw worden verwerkt. Als data met behulp van een open architectuur toegankelijk is, kan gemakkelijker een website worden ontwikkeld die aan de wensen van een specifieke doelgroep voldoet. Erfgoedprofessionals moeten zich concentreren op de ontwikkeling van deze kennis. Ze zullen onlosmakelijk verbonden zijn met hun professie in de toekomst. En als geesteswetenschappers de ontwikkelingen niet kunnen bijhouden, mogen we van erfgoedprofessionals verwachten als katalisator te fungeren.
Uiteindelijk werd de volgende tekst afgedrukt (150 woorden):
Het artikel over het digitale drama (Wetenschapsbijdrage 10 & 11 september) gaat met name in op de digitalisering van relatief modern, gedrukt erfgoed. Het merendeel van ons geschreven erfgoed (over foto's, bewegend beeld en beeldende kunst heb ik het nog niet eens) is echter handgeschreven, getypt materiaal danwel goedkoop drukwerk. Als de in het artikel genoemde norm van één fout per 10 pagina's wordt gehanteerd, zijn deze bronnen niet geschikt voor de automatische verwerking tot machineleesbare informatie.
Belangrijk is ook de verspreiding van de kennis die het mogelijk maakt om duurzame keuzes te maken. Als bijvoorbeeld bladzijdes goed gescand zijn, kunnen ze in de toekomst met verbeterde OCR opnieuw worden verwerkt. Erfgoedprofessionals moeten zich concentreren op de ontwikkeling van deze kennis. Ze zullen onlosmakelijk verbonden zijn met hun professie in de toekomst. En als geesteswetenschappers de ontwikkelingen niet kunnen bijhouden, mogen we van erfgoedprofessionals verwachten als katalisator te fungeren.
Dat was er dus overgebleven van mijn mening. Hopelijk weten jullie beter.
Ivo.
Reacties
Tot zover de relevantie van gedrukte nieuwsmedia. Die maken zich met dit soort snoeimethodes toch behoorlijk belachelijk. De echte kwaliteit ligt op internet in communities als deze waar je een goed onderbouwd stuk kunt plaatsen zonder dat iemand komt zeuren over de lengte en de ruimte op het scherm en het lettertype.
Het bewijst eens te meer dat naast het onderwerp van de discussie, die ons als informatieprofessionals natuurlijk raakt, de gedrukte oude media echte inhoudelijk discussie onmogelijk maken door formats, zowel in druk als op radio en tv.
Ze graven hun eigen graf. Lamaar lekker doen.
Ivo, prima stuk tekst dat goed duidelijk maakt dat wetenschappers eisen stellen die ze zelf niet waar maken. De ivoren toren heeft een bredere, goed begaanbare trap naar beneden nodig, waar je niet struikelend vanaf klapt.
De kans bestaat natuurlijk dat het genoemde artikel ook dramatisch is ingekort door de redactie van NRC. :)
Dank voor je reactie. Mijn vertrouwen in mijn geliefde NRC zou ik graag nog een beetje terugkrijgen. Maar het is nu wel te paard gegaan en zal te voet moeten terugkeren...
Ik had van de NRC iets meer verwacht, maar goed, gedrukte kranten lees ik al lang alleen nog wel eens als ik de trein in ga en leesvoer zoek. Op zich is het prachtig dat mensen zich druk maken over iets dat nog een papieren drager heeft en dus altijd opnieuw te digitaliseren valt. Ik mis de opinie en maatschappelijke discussie over wat er gebeurt met datgene wat alleen digitaal bestaat (wat in sneltrein vaart toeneemt omdat het gemak zoveel groter is, maar waarover vaak juist niet wordt gedacht in termen van het verleden dat het in de toekomst gaat representeren, als je begrijpt wat ik bedoel). Zal wel tegen 2020 op gang komen, of bij een goeie informatieramp...
Geen papier, maar wel complex materiaal: kijk eens naar de activiteiten én resultaten binnen het grote (AV-) digitaliseringsproject Beelden voor de Toekomst...het kán namelijk wel! En nog een andere hint met het oog op wat er met digitaal materiaal gebeurt: het Nederlands Instituut voor Beeld en Geluid archiveert en stelt digitaal AV erfgoed al sinds enkele jaren beschikbaar aan publiek, onderwijs en media. En dan heb ik het over born digital materiaal - materiaal dat inderdaad alleen digitaal bestaat...Wij wachten dus maar niet op 2020....