Hoe ga ik archiveren 2.0?
Deze blog is ook te vinden op Ambtenaar 2.0.Archief 2.0 was het thema van vandaag: vanmorgen vond de O...
Onderstaande discussie heb ik net in de groep Web 3.0 Semantisch web gepost, maar de vragen die ik stel zou ik graag breder onder de aandacht willen brengen.
Standaarden en authority-files spelen een belangrijke rol in de vormgeving van het semantisch web (zie ook het verslag van Saskia Giesbers over de speel- en deelsessie).
Standaarden zijn echter ook notoire discussiepunten als het gaat om bruikbaarheid, subjectiviteit enz. Allemaal redenen om ze vooral niet te gebruiken of er nog langer aan te werken om ze perfect te maken (iets wat ze denk ik nooit zullen worden).
Vervolgens is het idee om iets anders (dan voorheen) te gaan doen accuut belemmerd door het fenomeen achterstanden: dat hebben we nooit zo (of nooit goed) gedaan, dus dat geeft alleen maar goede resultaten als we alles volgens een standaard doen. Dat betekent de hele collectie standaardiseren.
Ik zou daar graag eens voor de vorm overheenstappen en beweren dat waar je niet aan begint er nooit zal komen. Dat geldt voor het gebruik van standaarden en daarmee ook voor een belangrijk middel om je collectie via het semantisch web te verrijken en te delen met anderen.
Waarom niet gewoon proberen of die nieuwe inventaris of die nieuwe toegang niet ook in EAD te beschrijven valt? Je archiefvormer beschrijven cinform ISAD of ISAAR?
En als er standaarden zijn waarover lang en goed is nagedacht, waarom zijn er dan toch zo weinig diensten waar standaarden worden gebruikt (of is mijn blik daarop te beperkt?)? Zijn het slechte standaarden? Blijven ze steken in theorie en zijn ze in de praktijk onbruikbaar?
Daarom mijn tweeledige vraag:
- wie heeft er ervaring met het gebruik van standaarden voor archiefbeschrijving en zou die hier ter plekke willen delen? Welke standaard gebruik je en waar loop je in het gebruik tegenaan?
- ken je bruikbare (internationale, landelijke, provinciale, regionale, lokale) authority-files die dusdanig sterk (en cool, dwz permalinks dus) zijn dat je ze absoluut zou moeten gebruiken om aan te linken als je triples wil gaan bouwen?
Oftewel: niet "waarom zouden we dit eigenlijk doen", maar "hoe zorgen we ervoor dat we gaan uitproberen of het iets is dat werkt en nieuwe wegen opent?". Ik ben vooral nieuwsgierig en zou met deze aanzet graag een beweging op gang willen brengen waarmee:
- die mensen die er iets in zien om het semantsich web als serieuze optie te onderzoeken een plek hebben om kennis en ervaring uit te wisselen
- we vervolgens de bestaande kennis en ervaring kunnen bundelen
Ik geef daarbij accuut toe dat ik (behalve inhoudelijke kennis van EAD, ISAD en ISAAR) in de praktijk nog een totale leek ben, maar ook eentje die zeer bereid is om te luisteren en leren...
Reacties
Archief Eemland is sinds dit jaar bezig met het inventariseren volgens de EAD-methode. Standaardisatie heeft bij ons de volle aandacht.
Ik zeg: 'gewoon' uitproberen en al werkende leren ! En niet alleen maar 'voor de vorm' er over heen stappen. Accepteren dat geen enkele standaard perfect is en beginnen. Ik denk overigens dat jij dit ook bedoelt maar dat je probeert om het voorzichtig te formuleren? Verder denk ik aan het beginnen met een leuke deelverzameling... :-)
Het IISG publiceert alle inventarissen al sinds 2000 met behulp van EAD op de website. Aanvankelijk werden de inventarissen met behulp van een sjabloon in WP9 gemaakt (MS-Word bood niet de mogelijkheden, die WP wel bood) en vanaf 2006 rechtstreeks in XML, waardoor er geen conversieslagen meer nodig zijn. Alle archieven (meer dan 3000) zijn kort beschreven en van ca. 1300 zijn er inventarissen of plaatsingslijsten beschikbaar in EAD. Gewoon mee begonnen en volledig doorgewerkt.
Een paar jaar geleden ben ik bezig geweest met het beschrijven van vergunningen die door waterschappen werden verleend. Alle vergunningen uit een bepaalde periode beschreef ik op stuksniveau. De bedoeling was dat ze via zoveel mogelijk trefwoorden (zoektermen) te vinden zouden zijn. Op onze website zijn de beschrijvingen te raadplegen.www.archiefeemland.nl en dan zoeken in 'archieven', bijvoorbeeld op 'Waterschap De Eem; vergunningen, 1973-1988' (beheers- of toegangsnummer van het archief is 0742.1). Zoals hieruit blijkt, zijn geografische benamingen niet altijd duidelijk waardoor ik daarvoor meerdere zoektermen heb vermeld. En verder heb ik diverse zoektermen toegevoegd die mijzelf wel handig leken of die vaak door waterschapsmensen gebruikt werden (de meeste zoektermen gedaan in overleg met de waterschapsarchivaris en sommigen zelf bedacht). Ook heb ik bijvoorbeeld de kadastrale gegevens vereenvoudigd: in plaats van 'kadastraal bekend gemeente X, sectie Y nummer Z' maakte ik ervan - om snel het juiste nummer terug te kunnen vinden - 'kadastraal X Y Z' (dus bijvoorbeeld 'kadastraal Amersfoort K 1234'). Dit laatste lijkt mij een mooi voorbeeld voor een gestandaardiseerde beschrijving (een 'vaste formulering') voor alle archiefdiensten. Als ik zo onbescheiden mag zijn. IS DIT IETS OM MEE TE NEMEN IN DEZE DISCUSSIE ? OF IS DIT EEN ALGEMEEN PROBLEEM DAT IEDEREEN KENT ? MAAR DAN IS MISSCHIEN TOCH MIJN TIP OVER DIE KADASTRALE GEGEVENS IETS OM TE DOEN ?
Spijker op z'n kop, @Joost Geraets (al zegt de ene Joost het anders dan de andere, ik bedoel inderdaad hetzelfde!) Joost Geraets zei:
Ik zeg: 'gewoon' uitproberen en al werkende leren ! En niet alleen maar 'voor de vorm' er over heen stappen. Accepteren dat geen enkele standaard perfect is en beginnen. Ik denk overigens dat jij dit ook bedoelt maar dat je probeert om het voorzichtig te formuleren? Verder denk ik aan het beginnen met een leuke deelverzameling... :-)
Goed om te horen. Positieve ervaring dus! Als ik het goed lees is de standaard prima werkbaar. Wat is voor jullie dé reden geweest om op EAD over te gaan? Wat zijn de voordelen tot nu toe en welke nieuwe mogelijkheden heeft dergelijke onstluiting jullie geboden? Bernard Mantel zei:
Het IISG publiceert alle inventarissen al sinds 2000 met behulp van EAD op de website. Aanvankelijk werden de inventarissen met behulp van een sjabloon in WP9 gemaakt (MS-Word bood niet de mogelijkheden, die WP wel bood) en vanaf 2006 rechtstreeks in XML, waardoor er geen conversieslagen meer nodig zijn. Alle archieven (meer dan 3000) zijn kort beschreven en van ca. 1300 zijn er inventarissen of plaatsingslijsten beschikbaar in EAD. Gewoon mee begonnen en volledig doorgewerkt.
Hoe doet het kadaster zelf dit? Hebben die niet al een standaard ontwikkeld die wij zouden kunnen volgen/gebruiken? Zeker gezien de enorme digitaliseringsslag van de afgelopen jaren daar zou je dat op zijn minst verwachten... Wim van den Hoonaard zei:
Een paar jaar geleden ben ik bezig geweest met het beschrijven van vergunningen die door waterschappen werden verleend. Alle vergunningen uit een bepaalde periode beschreef ik op stuksniveau. De bedoeling was dat ze via zoveel mogelijk trefwoorden (zoektermen) te vinden zouden zijn. Op onze website zijn de beschrijvingen te raadplegen. www.archiefeemland.nl en dan zoeken in 'archieven', bijvoorbeeld op 'Waterschap De Eem; vergunningen, 1973-1988' (beheers- of toegangsnummer van het archief is 0742.1). Zoals hieruit blijkt, zijn geografische benamingen niet altijd duidelijk waardoor ik daarvoor meerdere zoektermen heb vermeld. En verder heb ik diverse zoektermen toegevoegd die mijzelf wel handig leken of die vaak door waterschapsmensen gebruikt werden (de meeste zoektermen gedaan in overleg met de waterschapsarchivaris en sommigen zelf bedacht). Ook heb ik bijvoorbeeld de kadastrale gegevens vereenvoudigd: in plaats van 'kadastraal bekend gemeente X, sectie Y nummer Z' maakte ik ervan - om snel het juiste nummer terug te kunnen vinden - 'kadastraal X Y Z' (dus bijvoorbeeld 'kadastraal Amersfoort K 1234'). Dit laatste lijkt mij een mooi voorbeeld voor een gestandaardiseerde beschrijving (een 'vaste formulering') voor alle archiefdiensten. Als ik zo onbescheiden mag zijn. IS DIT IETS OM MEE TE NEMEN IN DEZE DISCUSSIE ? OF IS DIT EEN ALGEMEEN PROBLEEM DAT IEDEREEN KENT ? MAAR DAN IS MISSCHIEN TOCH MIJN TIP OVER DIE KADASTRALE GEGEVENS IETS OM TE DOEN ?
GOEDEMORGEN. DIT ARTIKEL UIT 2007 VOND IK IN MIJN FAVORIETENLIJST. UIT 'INTERMEDIAIR' Op zoek naar een zoekmachine die verbanden kan leggen Auteur: Sybe Rispens | 28-03-2007 | Reacties: 3 | Deel dit artikel Van een zoekmachine die trefwoorden echt begrijpt kon lange tijd alleen maar gedroomd worden. Maar langzaamaan komt nu een 'semantisch web' van de grond. Metadata Tegenstrijdigheden Grote open vraag Het internet staat bol van informatie waar computers niets van begrijpen. Tik 'Van Gogh' in en Google levert in 0,07 seconden een lijst met meer dan zes miljoen resultaten. Van geen enkel resultaat hebben de computers bij Google ook maar enig idee waar het over gaat. Of het nu om een reclameaanbieding gaat, een tentoonstelling, een persoon, een pornofilm of poëzie: voor de computers van het internet is het allemaal een grote digitale brij. De grondlegger van het Word-Wide Web, Tim Berners-Lee, bedacht zes jaar geleden dat het internet meer met informatie zou moeten kunnen doen. In Berners-Lee's visioen zou het internet van de toekomst moeten weten wat de gebruiker bedoelt met een zoekterm. Bij 'Van Gogh' zou een toekomstige zoekmachine moeten denken aan de werken van de schilder, maar ook aan schilderijen waarop hij is afgebeeld, namen van leermeesters en vrienden, plaatsen waar hij heeft geleefd, mensen met wie hij veel omging. Dat is voor huidige zoekmachines niet mogelijk. Ze hebben geen weet van het feit dat er tussen de lettercombinaties 'Van Gogh' en 'Auvers-sur-Oise' de plaats waar Van Gogh overleed een verband bestaat. Het web, zo vond Berners-Lee, zou zelfstandig dit soort verbindingen tussen de informatie van de miljarden internetpagina's moeten kunnen leggen. Het zou daarmee een soort wereldomspannend kennisnetwerk kunnen worden, waarbij computers alle informatie op het internet inhoudelijk zouden kunnen begrijpen. Berners-Lee formuleerde zijn plannen in een voor de tijd van de internethype karakteristiek optimisme. Zijn doelen zijn nog lang niet bereikt, maar inmiddels zijn er toch belangrijke vorderingen gemaakt. Het zijn met name ook Nederlandse onderzoekers die het 'betekenisvolle web' dichterbij brengen. Metadata De belangrijkste voorwaarde voor het realiseren van de droom van Berners-Lee is dat machines betekenis kunnen geven aan documenten: het web moet iets van semantiek begrijpen. Guus Schreiber, hoogleraar Intelligente Informatiesystemen aan de Vrije Universiteit in Amsterdam, demonstreerde vorig jaar tijdens een internationale conferentie in Amerika, dat het ook kan. Schreiber had met andere wetenschappers de collectie van diverse musea in Nederland digitaal bij elkaar gezet en er samenhang in aangebracht. Dit project 'E-Culture' was zo succesvol, dat het project op het Amerikaanse congres tot beste aanzet voor het semantisch web werd bestempeld. De zoekmachine van E-Culture kan dingen waar Google alleen nog maar van kan dromen. Wie 'Picasso' intikt, krijgt niet alleen vijf treffers van kunstenaars met die achternaam, maar ook de namen van vrienden en collega's. Dan nog schilderijen en sculpturen die door Picasso zijn gemaakt, maar ook werken van anderen, die door Picasso zijn beïnvloed, of die in dezelfde kunststroming liggen. Schreiber: 'Eigenlijk was dit project een voorbeeld van een standaardapplicatie. Binnen het vakgebied was er al jaren over gesproken, maar nog nooit had iemand de moeite genomen om het werkelijk op zo'n grote schaal in de praktijk te brengen.' De belangrijkste verdienste van E-Culture is het bijeenbrengen in één zoeksysteem van allerlei verschillende soorten informatie die musea door de jaren heen hebben verzameld. 'De omvang van het project is daarbij een grote technische uitdaging: het gaat om tienduizenden objecten en honderden miljoenen beschrijvingen daarvan', zegt Schreiber. De computer moet al die beschrijvingen 'begrijpen'. Dat gebeurt in E-Culture door de informatie te voorzien van speciale annotaties, ook wel metadata genoemd. De annotaties zijn onderling hiërarchisch geordend en door mensen zijn zinvolle verbanden ertussen aangegeven. Zo valt 'Picasso' in de categorie 'schilder'. En 'schilderen' en 'beeldhouwen' zijn twee 'eigenschappen' van Picasso. Uit dit soort annotaties en hun onderlinge verhoudingen kan de computer bepaalde logische redenaties afleiden. Het systeem kan zo verbanden herkennen, ook als die niet vooraf expliciet door een mens zijn ingevoerd. Als in de formele beschrijving staat dat 'schilderen' een eigenschap van Picasso is, en dat 'schilderen' ook een eigenschap van Van Gogh is, dan kan het systeem zelf een verband leggen tussen beide schilders. E-Culture heeft laten zien dat het aan elkaar knopen van dit soort beschrijvingen goed kan werken. Dat succes kent wel twee fundamentele beperkingen: bij kunst gaat het maar om een beperkt kennisdomein en bovendien is het een kennisdomein waarin feiten en gegevens niet zo snel veranderen. Tegenstrijdigheden Dat er voor zo'n toekomstig systeem met miljarden gegevens gerekend moet worden, zien de meeste onderzoekers als het geringste probleem. Computers verdubbelen nu eenmaal elke 18 maanden hun rekencapaciteit. Maar hoe zit het met de andere uitdagingen van het semantische web? De tweede horde voor systemen als E-Culture is: wat te doen met tegenstrijdige informatie? Zelfs als niemand kwade wil in de zin heeft, ontstaan er in de 'thesaurus' (geordende begrippenstructuur) die de ontwikkelaars van een semantisch web vastleggen, logische tegenspraken. Zo zou men in een thesaurus de volgende vier regels kunnen aantreffen: 'koeien zijn dieren', 'schapen zijn dieren', 'koeien en schapen zijn vegetariërs' en 'vegetariërs eten nooit andere dieren of delen van andere dieren'. Vervolgens verschijnt er op een dag een bericht op het web dat sommige koeien hersenen van schapen gegeten hebben en vervolgens ziek werden. Deze koeien worden 'gekke koeien' genoemd. De bestaande thesaurus kan nu alleen consistent blijven als tenminste een van de regels eruit wordt geschrapt. Welke van de regels moet er nu aan geloven? Frank van Harmelen , hoogleraar kennisrepresentatie en redenering aan de afdeling kunstmatige intelligentie aan de Vrije Universiteit van Amsterdam, is desondanks optimistisch over het vinden van oplossingen voor dit soort problemen: 'We moeten hier voorbij de klassieke logica waarbij iets of waar of onwaar is. Het is helemaal niet nodig om dit soort tegenspraken honderd procent goed op te lossen. Ook als je systeem het maar een beetje goed doet, heb je toch al een enorme winst gemaakt.' Grote open vraag Voor een wereldomspannend semantisch web is het noodzakelijk dat er gestandaardiseerde manieren ontwikkeld worden om kennis vast te leggen en tussen computers uit te wisselen. Voor het laatste is niet de techniek, maar de mens doorslaggevend omdat er goede internationale afspraken gemaakt moeten worden. In allerlei toepassingsgebieden schieten er op dit moment thesauri en begrippenlijsten uit de grond voor de biotechnologie, de informatica, de financiële sector, enzovoort. 'Voor mij is de grote open vraag: zullen we er in slagen al die begrippenlijsten op een zinvolle manier met elkaar te verbinden?', zegt Van Harmelen. Of het dus ooit zover komt dat in een semantisch web, zoals Berners-Lee droomde, 'computers in staat zullen zijn om alle data op het internet te analyseren de inhoud, onderlinge samenhang en de interactie tussen mensen en machines', is nog steeds de grote vraag. Maar het semantisch web heeft voor beperkte kennisgebieden duidelijke doorbraken bereikt. Schreiber: 'Mijn droom is dat we over vijf jaar op deze manier alle musea in Nederland met elkaar kunnen verbinden. Dan ontstaat een soort cultureel kenniseiland. Dat eiland zou je daarna kunnen uitbreiden op Europese schaal, en misschien valt uiteindelijk te denken aan het digitale erfgoed van de hele wereld.'
Kadasternummers veranderen natuurlijk weleens. Dat zou je kunnen ondervangen door achter 'Amersfoort K 1234' het jaartal te plaatsen: 'Amersfoort K 1234 (1975)' (fictief voorbeeld).
In het kader van een semantisch web kunnen we niet om standaarden heen en HTML5 is the next big-thing als standaard momenteel. En terecht, want het is een mindshift waar we even doorheen moeten komende jaren. Even concreet is in het kader van dingen beschrijven de microdata model binnen HTML5 een interessante om dingen te beschrijven/benoemen. Hier meer uitleg: http://diveintohtml5.org/extensibility.html. Kan goed naast de RDFa techniek worden gebruikt.
Ik vraag me af of UDC (Universele Decimale Classificatie) in het semantisch web geen rol van betekenis kan spelen. Zie www.udc.org. Bibliotheken en documentalisten werken hier al tientallen jaren mee. Alle informatie is toegankelijk te maken, via een logische structuur. Voordeel van een code boven trefwoorden: een code is korter, waarbij ook het sorteren makkelijker zal zijn. En het onthouden van codes kan bij veel mensen beter blijven hangen, denk ik (of is dat niet goed gedacht ?). En een code kan eenvoudig in barcode omgezet worden, wat volgens mij ook weer mogelijkheden biedt voor 'storage and retreival'. Helaas ben ik niet bij het congres geweest vorige week over het 'semantisch web'. Standaardisatie om te komen tot betere toegankelijkheid vind ik een interessant en noodzakelijk onderwerp. Van bovenstaande reakties begrijp ik (nog) niet veel. Misschien sla ik de plank mis... Maar ik zie zeker voordelen in het gebruik van de UDC (waarvan zoals men weet de VNG-archiefcode is afgeleid). vriendelijke groet, Wim v.d. Hoonaard.
Gevonden op www.overheid.nlGEOZET Informatie opzoeken op geografische kenmerken zoals postcode en woonplaats is voor veel Nederlanders vanzelfsprekend. Dus ook als het gaat om het ontsluiten en vinden van overheidsinformatie. Nu wordt kaartinformatie op veel verschillende websites van gemeenten, provincies, waterschappen en de centrale overheid aangeboden. Daardoor is deze nauwelijks uniform toegankelijk en vergelijkbaar. Het project “Geografische zoek- en toondienst”, afgekort GEOZET (werktitel) is gericht op het realiseren van een centrale toegang via Overheid.nl tot locatiegebonden informatie die overheden aanbieden op basis van standaarden. De voorziening maakt het mogelijk om diverse soorten overheidsinformatie via een eenvoudige interactieve kaart te raadplegen en met elkaar te combineren. Het ministerie van Binnenlandse Zaken en Koninkrijksrelaties (BZK) heeft aan het ICTU-programma e-Overheid voor Burgers de opdracht verstrekt voor het uitvoeren van de realisatiefase en het inrichten van het beheer. P.S. (van Wim v.d. H.): Waarom staan archiefdiensten niet op www.almanak.overheid.nl ?
@Wim, @Saskia, @Sebastian: Dank voor jullie bijdragen!! @Wim, hou de vervolgsessie in de gaten. De sessie van 6 september heeft mij in ieder geval veel duidelijk gemaakt. Hoop dat dat voor jou ook zo is. Het geodata-project dat je noemt lijkt me nu typisch een standaard om te volgen. Het artikel in jouw post vult weer de mitsen en maren aan die er al genoemd zijn tijdens de sessie. Volgens mij weet je de plank dus best te raken :-) UDC lijkt me niet direct bruikbaar in dit kader, is meer een code om informatie mee te categoriseren/rubriceren in plaats van te ontsluiten. @Sebastian: technische achtergrond? Gezien de materie zéér welkome bijdrage. @Saskia: pfoe! Standaarden & standaarden... Zelfs voor de notatie van standaardtermen zijn er dus standaarden! Hmmm... niemand bekend met een onderzoek dat deze spanwijdte overbrugt??
Dit is wel een mooi (en imposant) overzicht van standaarden: klik Als het overzicht jullie bekend voorkomt, volgens mij heb ik de link van dit forum geplukt :)
@Saskia Ik wou toch nog even reageren op jouw opmerking over geografische aanduidingen. Je zegt dat er zoveel mogelijk is. Nu is het volgens mij zo dat er in heel veel archieven vaak kadastrale aanduidingen voorkomen. Die zou je toegankelijker kunnen maken m.b.v. de door mij voorgestelde gestandaardiseerde methode (met een jaartal erachter). Coördinaten komen bijna niet voor in archiefstukken. Het gaat er mij om in dit verhaal, dat 'ergens iets gebeurt' en dat 'ergens' is terug te vinden via dat 'kadastrale nummer'.
ICT en archiefdiensten (samenwerking). Ik zocht net even naar ICT-woordenlijsten. Ik vond o.a. www.computerwoorden.nl. Bijvoorbeeld het woord 'Archie' (afgeleid van Archief) is een zoekmachine dat documenten kan opzoeken. Ik begrijp het nog niet helemaal. Is dit specifieker dan Google ? Is dit een eerste stap naar een semantisch web ? Uniekere zoekresultaten ?
KING: Kwaliteitsinstituut Nederlandse Gemeenten (Den Haag): Ik lees net een artikel uit het eenmalige blad van KING voor het KINGS E-Team (juni 2010; pag. 96-99). Over het belang van standaardisatie. Veel is al bedacht, probeer niet zelf het wiel uit te vinden, zegt Larissa Zegveld, projectleider en coördinator van het e-team. ‘In samenwerking met gemeenten en leveranciers proberen we afspraken te maken om zaken op elkaar af te stemmen: van de begrippen die je hanteert, tot de procedures die je doorloopt, tot de software die je gebruikt’. Ingrid Hoogstrate is hoofd afdeling e-dienstverlening van KING. Genoemd worden bijv.: EGEM i-teams (ca. 5 jaar geleden de programmaorganisatie van de overheid voor standaarden); EGEM heeft zaken aan KING overgedragen; GEMMA (Gemeentelijke Model Architectuur); PETRA (zoiets, maar dan voor provincies); MARIJ (zoiets, maar dan voor het Rijk); WILMA (zoiets, maar dan voor waterschappen); NORA (Nederlandse Overheids Referentie Architectuur). NORA zorgt voor het op elkaar afstemmen van de onderdelen GEMMA, PETRA, MARIJ, WILMA (onderdelen op het gebied van referentie architectuur). (‘Hoe verpak je informatie zo, dat snel duidelijk is wat je wilt of waar het om gaat’). info@kinggemeenten.nl
Bij het IISG gebruiken we EAD voor onze inventarissen, maar we maken maar in zeer beperkte mate gebruik van functionaliteiten. Zo taggen we in de tekst alleen maar persoons- en organisatienamen en dat niet eens gestandaardiseerd. Zouden we nu al metagegevens kunnen toevoegen die later voor het semantisch web bruikbaar zijn? Dan kunnen we daar wellicht stante pede mee beginnen. Ivo weet misschien meer, omdat hij ooit bij het IISG actief was?
Ik heb hier net iets over geschreven in de LinkedIn groep over de archiefvisie. Dat heb ik licht bewerkt tot een blog op http://iturl.nl/snG7I5Ter toevoeging: bedenk dat standaarden, zoals bijv EAD altijd bedoeld zijn als uitwisselingsformaat. Hoe je interne format eruit ziet maakt niet uit voor de buitenwereld, zolang je maar kunt uitwisselen in een standaard. Zo kun je een schaalbare oplossing kiezen voor je eigen instelling, en toch jouw metadata integreren in grotere verzamelingen. Succes!
Dat zijn architectuurstandaarden, maw een weergave van de samenhang tussen gegevensverzamelingen. Dat is iets geheel anders dan een standaard voor metadata voor gegevensverzamelingen zoals EAD, Z39.50, Dublin Core, ISAD etc etc. Frans Smit Wim van den Hoonaard zei:
KING: Kwaliteitsinstituut Nederlandse Gemeenten (Den Haag): Ik lees net een artikel uit het eenmalige blad van KING voor het KINGS E-Team (juni 2010; pag. 96-99). Over het belang van standaardisatie. Veel is al bedacht, probeer niet zelf het wiel uit te vinden, zegt Larissa Zegveld, projectleider en coördinator van het e-team. ‘In samenwerking met gemeenten en leveranciers proberen we afspraken te maken om zaken op elkaar af te stemmen: van de begrippen die je hanteert, tot de procedures die je doorloopt, tot de software die je gebruikt’. Ingrid Hoogstrate is hoofd afdeling e-dienstverlening van KING. Genoemd worden bijv.: EGEM i-teams (ca. 5 jaar geleden de programmaorganisatie van de overheid voor standaarden); EGEM heeft zaken aan KING overgedragen; GEMMA (Gemeentelijke Model Architectuur); PETRA (zoiets, maar dan voor provincies); MARIJ (zoiets, maar dan voor het Rijk); WILMA (zoiets, maar dan voor waterschappen); NORA (Nederlandse Overheids Referentie Architectuur). NORA zorgt voor het op elkaar afstemmen van de onderdelen GEMMA, PETRA, MARIJ, WILMA (onderdelen op het gebied van referentie architectuur). (‘Hoe verpak je informatie zo, dat snel duidelijk is wat je wilt of waar het om gaat’). info@kinggemeenten.nl
@Sabine In het algemeen (en dus ook bij het IISG) geldt dat als je structuur hebt gegeven aan (meta)data je deze metadata kunt publiceren op het Semantisch Web. Er zijn verschillende manieren om de structuur aan te brengen, denk aan: (1) je maakt XML-documenten (in Bv. EAD) (2) je vult een (Relationele) Database (3) je maakt een thesaurus en gebruikt de termen in je beschrijvingen. Al deze technieken maken structuur, omdat je aangeeft dat "1923" een inventarisnummer is en niet een jaartal en betrekking heeft op een archiefstuk uit het jaartal "1843". Dit werkt beter dan full-text (en kost ook meer tijd om te maken...). Je doet dus niets extra's voor het SW, maar gebruikt technieken om de structuren (die je meestal toch al maakt) op een bepaalde (technische) manier te publiceren.
@Ivo Het is al heel wat dat we taggen en daarmee structureren. Maar we doen het wel rommelig, zonder duidelijke afspraken. Bijvoorbeeld: [container]1[/container][unittitle][persname]Johannes Marten (Joop) den Uijl[/persname] (Hilversum, 9 augustus 1919 – Amsterdam, 24 december 1987) was een Nederlands politicus. Hij was van 1967 tot 1986 de politiek leider van de [corpname]Partij van de Arbeid (PvdA)[/corpname] en van 1973 tot 1977 minister-president van Nederland.[unitdate]1973-1986.[/unitdate][/unittitle][physdesc]1 map[/physdesc] We taggen alleen de data die over het materiaal gaan (met een . ivm een onvolkomenheid in het stylesheet). Daarnaast persoons- en organisatienamen. Maar dat doet ieder om zijn eigen manier. Is het beter dat te unificeren? Of maakt dat niet zoveel uit? Moeten we bijvoorbeeld de uitgeschreven organisatienaam en de afkorting apart taggen of juist niet?
@ sabine Hoe meer structuur hoe liever. Dus heel veel van wat je zou kunnen markeren en uitgeschreven opnemen ed. is goed. Maar... - let op de kosten en de baten: hoe zinnig is de ontsluiting ten opzichte van de tijd die je er in steekt. ICT-ers zeggen: wat is de use-case/businness-case, wat ga er mee doen en voor wie doe je dat? - het vinden en markeren van datums en namen is voor een belangrijk deel te automatiseren: je hoeft dan alleen aan te geven of de software inderdaad een persoonsnaam heeft gevonden. Beiden punten leiden tot de vraag "breed of diep": gaan we eerst alles een beetje gestructureerd online krijgen en daarna verdiepen of willen we een beperkte hoeveelheid, maar dan helemaal. Ik ben voorstander van eerst breed, omdat breedte het grootste rendement oplevert en de diepte goed te automatiseren is.
Laat ik vooropstellen dat het belangrijkste punt wat mij betreft al is dat je je ervan bewust bent en mee bezighoudt. @Ivo: Gezien de technische component (wat moet ik in welke vorm publiceren) hoop ik dat er voldoende kennis in de organisaties beschikbaar is op dit terrein (lijkt me een absolute must om zinnige dingen te doen). @Sabine: Ik volg met interesse jullie ervaringen! Gekoppeld aan de optie van @Ivo om thesauri te publiceren een vraag van mijn kant: bestaat er een overzicht c.q. heeft iemand inzicht in de vraag welke thesauri er al in gebruik zijn bij erfgoeddiensten in Nederland? Welke ontbreken nog? Op de sessie werd het voorbeeld van de RKD kunstenaarsthesaurus al genoemd. Oftewel welke wielen moeten we absoluut (niet) gaan uitvinden?
@Joost: Thesauri zijn bijvoorbeeld de VNG-thesaurus, de UNESCO-thesaurus en ik zag laatst een thesaurus op Internet van Architectuur (Nederland).
In 'Proces&Document' nummer 3 (september 2010) las ik 'Het belang van open standaarden' door Joris Gresnigt (Bureau Forum Standaardisatie van de Rijksoverheid). Ook over semantische standaarden. Hij verwijst naar www.open-standaarden.nl. Op deze website is bijvoorbeeld een directe link gemaakt naar 'semantiek'. Checken, lijkt mij.
In InformatieProfessional nr. 10 van oktober 2010: o.a. een artikel over 15 jaar Dublin Core. (Zie reactie I. Koch met de link naar een artikel over 'Cloud computing' n.a.v. E. Ketelaars discussiepunt 'Cloud computing'. En blader dan terug in dit vakblad).
Voor de overheden loopt tegenwoordig veel via de nationale standaarden binnen het kader van de Nederlandse Overheids Referentie Architectuur (NORA) en de varianten voor de diverse soorten overheden: GEMMA (voor Gemeenten), MARIJ (voor Rijksdiensten), PETRA (voor Provincies). Binnen GEMMA zitten de "semantische" standaarden in de gegevensmodellen RSGB en RGBZ (zie www.kinggemeenten.nl en van daaruit naar GEMMA). Geen permalink, want de standaarden zitten nu nog bij de op te heffen SURFgroepen. Per 1-1-2011 is een integratie met de site van KING beloofd.
Bij de vragen van Joost valt het noemen van ISAD op. Daarover is weinig terug te vinden op archief2.0. Betekent dit dat het nergens speelt terwijl dit toch DE nieuwe internationele methode en standaard voor het beschrijven van archieven is? Dus als specifiekere vraag bij de vraag van Joost: wie heeft er ervaring met het gebruik van standaarden voor archiefbeschrijving en zou die hier ter plekke willen delen? Welke standaard gebruik je en waar loop je in het gebruik tegenaan? welke instelling gebruikt de 26 elementen van ISAD(G) voor het beschrijven van het archief en de bestanddelen? Bij het Regionaal Archief Nijmegen willen we hiermee gaan werken maar hebben hierbij vragen die mogelijk al lang door anderen zijn beantwoord.
In dit kader wellicht een aardig / nuttig project: DataLift: "... brings raw structured data coming from various formats (relational databases, CSV, XML, ...) to semantic data interlinked on the Web of Data....". Een tip van @steltenpower: 'http://datalift.org/ handig voor ICTU's e-Overheid project ‘Open Data’ http://ow.ly/330iH - Nederland Open in Verbinding @OpenNieuws'