Dark data en kunstmatige intelligentie

  • aug 2021
  • Verwijderde gebruiker
  • ·
  • Aangepast 27 jun
  • 7
  • 36
Verwijderde gebruiker
InformatiehuishoudingOverheden
  • Annelot Vijn
  • Antal Posthumus
  • Gert Zwagerman
  • Harm Pieters
  • Daniele Mores
  • Marieke de Haan
  • Gerrit Bril
  • Eerke Pasveer
  • Lotte Wijsman
  • Jan-Willem Princen
  • Suzi Szabo
  • Rens Ouwerkerk
  • Ad van Heijst
  • Nicole Fielmieg
  • Chido Houbraken
  • Wouter Verdaas

Het probleem met data bij de overheid is bekend, de voortsnellende digitalisering heeft geleid tot een enorme aanwas van gegevens. Ontelbare servers lopen in datacenters continu te zoemen met data die onbekend is bij de organisaties die er de eigenaren van zijn. De oorzaken kennen we ook: het ontbreken van werkafspraken, personeelsverloop, organisatieveranderingen en ontoereikend beheer, etc..

We noemen het ook wel ‘dark data’ naar analogie van de donkere materie in het universum: het heelal bestaat voor 85% uit materie waarvan we de aard niet kennen, maar enkel weten dat het er moet zijn omdat we het kunnen meten. In de wereld van data is het niet veel anders, zoals we als recordmanagers dagelijks ondervinden. De terabytes zijn bekend, de inhoud veelal niet.

Kunstmatige Intelligentie

Gelukkig lijkt er nu een oplossing te zijn in de vorm van kunstmatige intelligentie: in plaats van de databerg te lijf te gaan met een flinke hoeveelheid recordmanagers, laten we slimme algoritmen los op de databrei om deze te classificeren, te ontsluiten en te beheren. Als YouTube ons kan voorzien van gepersonaliseerde reclames, Netflix onze filmvoorkeur kent, Google moeiteloos onze zoekvragen beantwoordt dan moet er inmiddels toch wel een AI-toepassing zijn die ons als overheid kan helpen bij het informatievraagstuk? De praktijk blijkt weerbarstiger en nog geen reden te geven om nu al achterover te gaan leunen en het ‘mission accomplished’ uit te roepen.

AI en Recordmanagement

In de gemeente Amsterdam is een kleine twee jaar geleden gestart met een onderzoek naar innovatieve toepassing van technologie bij het beheren van informatie. De eerste stap werd gezet door een trainee met een voorbereidend onderzoek naar potentiële AI-oplossingen voor recordmanagement. Eén van de constateringen was dat weliswaar her en der is gezocht naar manieren om kunstmatige intelligentie in te zetten voor het beheren van informatie in grote ongeordende datasets, maar dat echte succesverhalen nog moeilijk te vinden zijn.
De potentie wordt onderkend, maar in praktijk voldoen resultaten nog niet helemaal aan de hooggespannen verwachtingen.

Vaak ontstaat daardoor een afwachtende opstelling met de vaststelling dat AI interessant is maar niet eenvoudig en dat het wachten is op een volwassen oplossing. Zeer lezenswaardig hierbij is het Australische artikel ‘More human than human’ die aardig die golfbeweging beschrijft omtrent de hype die ontstaat en de daaropvolgende ontnuchtering optreedt bij nieuwe technologie. De door de auteurs aangehaalde wet van Amara is tekenend, deze zegt ‘we tend to overestimate the effect of a technology in the short run and underestimate the effect in the long run’*. In Amsterdam wilden we niet in de val van het laatste deel van het citaat vallen en actief mogelijkheden blijven onderzoeken en waar mogelijk te helpen ontwikkelen.

Samenwerking

De gemeente Amsterdam staat natuurlijk niet alleen in de wens om kunstmatige intelligentie te onderzoeken en dit leidde tot landelijke samenwerking met de organisaties Drents Overijsselse Delta, TU Delft en de UvA, die hetzij over de benodigde know how beschikken, hetzij ook al gelijke initiatieven aan het ontplooien waren. Het centrale idee is dat de om oplossing vragende partijen cases aanbieden aan de studenten data science van de universiteiten om deze vervolgens te laten uitwerken, bijvoorbeeld in de vorm van een afstudeertraject. Zo heeft de gemeente Amsterdam verschillende onderzoekvoorstellen opgesteld, die recordmanagement koppelen aan specifieke cases als WOB, AVG en zoekfunctionaliteit die slimme antwoorden kan geven op basis van een inhoudelijke interpretatie van data in plaats van enkel een doorverwijzing waar informatie te vinden is. Met deze blog willen wij graag het eerste resultaat delen van een onlangs afgerond onderzoek.

AI en geautomatiseerde toepassing selectielijst

In april is een masterstudent Data Science van de UvA als stagiair aan de slag gegaan bij Amsterdam met een eerste onderzoeksvoorstel op het gebied van de AVG en NLP(Natural Language Processing). Daarbij moet overigens worden benadrukt dat de student het onderzoek heeft uitgevoerd voor zijn masterscriptie, waarbij een praktische bruikbare toepassing een welkom resultaat zou zijn, maar het uit academisch oogpunt niet de hoofdzaak is. Het onderzoeksvoorstel omvatte twee stappen:
1. kunnen we met AI privacygevoelige informatie identificeren op een ongeordende fileshare;
2. Indien dat mogelijk is, kunnen we deze dan als volgende stap koppelen aan bewaartermijnen van de gemeentelijke selectielijst.
Door de persoonsgegevens als uitgangspunt te nemen hoopten we dat ‘de ui’ geleidelijk afgepeld kon worden tot een meer behapbare hoeveelheid data, vanuit de veronderstelling dat deze minder complex zijn om te herkennen. Daarnaast is privacy vanuit het oogpunt van prioritering een logische eerste stap.

De student heeft als uitgangspunt genomen dat hij de zogenaamde ‘state of the art’ van Named Entity Recognition (NER) wilde verbeteren; dat te vertalen valt als de betrouwbaarheid van de voorspellingen. NER is een toepassing om geautomatiseerd data te structureren uit ongestructureerde machineleesbare documenten. NER doet dit door in teksten bepaalde gedefinieerde categorieën entiteiten, zoals personen, organisaties, locaties, tijdsaanduidingen e.d. te identificeren. Alhoewel we in dit onderzoek gekozen hebben voor persoonsgegevens zou het ook kunnen worden gebruikt om bijvoorbeeld vergunningen, klachten, WOB-verzoeken, enz., te herkennen. Hierbij is reeds vastgesteld dat een vrij hoge accuratesse haalbaar is met een zogenaamde ‘state of te art’ van rond de 0.94 F1**, waaraan toegevoegd moet worden dat dit niet noodzakelijkerwijs ook geldt voor het Nederlandse taalgebied.

In het onderzoek is gekozen om accuratesse te verbeteren door het genereren van meer trainingsdata die vervolgens gebruikt kan worden voor het trainen van een model. In het onderzoek is het labelen van trainingsdata gedaan door middel van ‘weak supervision’, waarbij het labelen van entiteiten in de trainingsdata wordt uitgevoerd door de computer te voorzien van een set regels (labelling functions), waarna een statistisch model entiteiten in de dataset labelt in categorieën. Dit is een minder precieze methode dan vooraf handmatig labelen, maar scheelt wel arbeidsintensieve voorbereiding en heeft nog steeds alle potentie om effectieve modellen te ontwikkelen.

Uit het onderzoek is gebleken dat deze methode niet meteen leidde tot een verbetering van de ‘state of te art’, want het resultaat kwam uit op 0.78 F1. De techniek van weak supervision heeft echter wel nut en potentie om labels en classes (categorieën) die nog niet in de academische literatuur te vinden is uit te breiden. In de eindrapportage zijn daarvoor een aantal vervolgstappen voorgesteld die kunnen voorborduren op het huidige resultaat, maar ook een aantal algemene lessen die we kunnen trekken voor dit soort trajecten:

  • Als je als gemeente al over gelabelde trainingsdata beschikt, die gebruikt kan worden als trainingsdata, dan is dat een enorm voordeel bij het ontwikkelen van een model. Bij de gemeentelijke selectielijst is sprake van veel selectiecategorieën met variabelen in de vorm van resultaten. Het is dus waarschijnlijk dat het model complexe verschillen moet kunnen herkennen en om dat betrouwbaar te kunnen doen, is een grote hoeveelheid trainingsdata vereist. Om die van labels te voorzien is arbeidsintensief en het loont dan ook om aan de voorkant te investeren in de datakwaliteit (hoor ik daar archiving by design?) en zelfs met AI kan handwerk noodzakelijk blijven. Opknippen in subsets met een beperkt aantal categorieën kan dan een optie zijn. Dit is een richting die volgens de student concreet het meeste resultaat kan gaan opleveren en beschikbaarheid van dergelijke trainingsdata helpt om studenten of andere partijen te interesseren voor verder onderzoek;

  • Voor een complex probleem als archivering met grote hoeveelheden data, veel selectiecategorieën en mogelijke resultaten, is veel rekenkracht nodig die vaak niet standaard aanwezig is. Investering in videokaarten (GPU) die over veel rekenkracht beschikken is aan te bevelen;

De beschikbare tijd van het onderzoek gaf helaas niet genoeg ruimte om een stap verder te gaan en te kijken hoe we het resultaat verder kunnen koppelen aan bewaarregimes. We weten op basis van dit onderzoek wel dat we dan weer tegen dezelfde problematiek gaan aanlopen:

  • Het moeten labelen van een trainingsdataset om bijvoorbeeld inhoudelijk te kunnen bepalen of een document een vergunning of bezwaarschrift is;

  • Hoe minder variabelen (zoals resultaattypen) bij het bepalen van een informatietype en bijbehorende bewaartermijn, hoe eenvoudiger het de herkenning met behulp van labeling.

Op dit moment denken we na welk vervolgonderzoek we kunnen doen om weer een stap verder te komen.

Reflectie

Het menselijk vermogen om teksten te interpreteren, variabelen en uitzonderingen mee te wegen is complex en AI is een veelbelovend hulpmiddel dat ons kan helpen om ‘dark data’ te lijf te gaan. Het lijkt het erop dat er morgenochtend nog niet meteen een slimme machine is die al het mensenwerk die komt kijken bij het recordmanagent volledig uit handen neemt, al zal het niet de eerste keer zijn dat technologie ons weet te verrassen op dit punt. Pasklare oplossingen zijn nog niet voor handen, maar onderzoeken en de juiste voorwaarden scheppen zijn nodig om verdere stappen te zetten. De kennis die tijdens het proces opgedaan wordt zou eigenlijk genoeg rechtvaardiging moeten zijn en helpt het vakgebied recordmanagement om een effectieve partner te zijn in de organisatie.

Over de hele lijn van operationeel recordmanagement is het werk en bijbehorende competenties hoe dan ook aan het verschuiven. Traditionele taken als postregistratie, dossiers op orde maken en archiveren maken plaats voor werkzaamheden als het ordenen van fileshares, het veiligstellen en ontsluiten van oude databases. Het zorgen voor betrouwbare trainingsdata en omgevingen waarin geëxperimenteerd kan worden, zou een verdere toevoeging kunnen zijn aan het pallet.

Daarnaast kunnen we ons afvragen of de logica die we gebruiken bij het waarderen, selecteren e.d., niet erg complex is (in ieder geval bij gemeenten) en al snel een vorm van menselijk begrip veronderstelt***. Los van AI, kunnen we ons misschien ook de vraag stellen in hoeverre onze kaders geschikt zijn om moderne technologie optimaal te benutten.

Verwijzingen
* Gregory Rolan, Glen Humphries, Lisa Jeffrey, Evanthia Samaras, Tatiana
Antsoupova & Katharine Stuart:‘More human than human, Artificial Intelligence in the archive’, aldaar pag.18.
**F1 is een methodiek om accuratesse te meten.
***Gregory Rolan, Glen Humphries, Lisa Jeffrey, Evanthia Samaras, Tatiana
Antsoupova & Katharine Stuart:‘More human than human, Artificial Intelligence in the archive’, aldaar pag.9.

Bronvermelding
· Gregory Rolan, Glen Humphries, Lisa Jeffrey, Evanthia Samaras, Tatiana
Antsoupova & Katharine Stuart:‘More human than human, Artificial Intelligence in the archive’.
· https://en.wikipedia.org/wiki/Weak_supervision

Reacties

7 reacties, meest recent: 30 augustus 2021
  • Interessant blog, Frank.

    (Ik kan geen verwijzing naar de scriptie vinden, dus ik stel hieronder wat vragen, waarop ik de antwoorden nmisschien daar in had kunnen vinden. Mocht dat zo zijn, dan wil ik ze daar best in opzoeken, als je me een link geeft ;-))

    Ik hoop dat het niet te nerdy is, maar toch wat vragen:

    1. Bij "dark archives" denk ik vooral aan niet ontsloten archieven. Is er ook eerst gekeken in hoeverre je resultaten kunt boeken met het ontsluiten van de ongeordende bestanden op fileshares voor zoekfuncties, voordat je er selectie-uitgangspunten op toepast?

    2. In hoeverre had de lagere accuratesse van de Named Entity Recognition (NER)-methodiek te maken met de Nederlandse taal? Het wordt wel gesuggereerd in je blog, maar is ook duidelijk of het daar ook echt mee te maken had? Dat heeft namelijk wel gevolgen voor de toepasbaarheid van de methodiek: ligt het aan het 'oefenmateriaal' of ligt het aan de onbekendheid met de Nederlandse taal?

    3. Aansluitend op de vorige vraag: welk algoritme is er gebruikt om NER uit te voeren? Hoeveel trainingsdata was er en hoe (lang) is er mee geoefend?

    4. NER richt zich vooral op het herkennen van bij naam genoemde entiteiten (Named Entities) in een verzameling van teksten en om er dan een label aan toe te kennen, bijvoorbeeld “naam”, “plaats”, “datum”, "BSN", "bankrekeningnummer" enz. Dat zou goed kunnen werken om materiaal dat onder de AVG valt te herkennen. Maar is deze methode ook geschikt om procesmatige en functionele labels toe te kennen, zoals selectiecategorieën of vernietigingsdata? Met andere woorden: had je daar niet beter een andere methodiek voor kunnen gebruiken?

    5. Stel dat je dit in het algemeen zou willen toepassen als selectiemethode: wat voor mapping zou je dan moeten maken tussen named entity resultaten (zoals naam, object of percentage) en selectievoorwaarden (zoals 'na vervallen belang' of '70 jaar na overlijden')?

    6. Klein puntje: In je blog schrijf je Natural Language Programming. Ik denk dat je Natural Language Processing bedoelt :-)

    Ik vind het een heel interessant onderzoek! Hopelijk gaan we er meer mee doen binnen ons vak.

    Chido Houbraken
  • Hallo Frank,
    Inhoudelijk erg interessant.
    Je reflectie vind ik erg sterk. Ik kan niets anders dan hierbij aansluiten.

    Ik heb nog 2 vragen over eventuele andere onderzoeken en aanpak i.s.m. studenten.
    1. Zelf heb ik ook behoefte om een aantal onderzoeken te laten uitvoeren richting de toekomstige competenties en het werk. Ook vind ik het laatst genoemde m.b.t. de toepassing van de huidige logica omtrent waardering en selectie een interessante om te onderzoeken. Zijn jullie al met dergelijke onderzoeken bezig?

    2. Een samenwerking met universiteiten om dit soort vraagstukken te behandelen vind ik erg slim. Ik ben daarom erg benieuwd naar hoe jullie de samenwerking met de universiteiten hebben gerealiseerd en hoe jullie tot goede onderzoeksvragen zijn gekomen?

    Ik hoor graag van jou.
    Groeten Nicole

    Nicole Fielmieg
  • Hoi Nicolle,
    Wij hebben binnen de gemeente geen onderzoek naar de logica van waardering en selectie, dus het is meer een eigen mening. Ik denk zelf dat het zaakgerichte archiveren als uitgangspunt lastig is bij voortschrijdende datificering. Een gegeven kan op meerdere plekken hergebruikt worden binnen processen met verschillende bewaartermijnen, dat maakt het complex. Het lijkt mij met het oog op het werken met meer federatieve modellen, kern- en basisregistraties best logisch om lagere aggregatieniveaus als uitgangspunt te nemen. Documenten zijn vaak ook maar een momentopname van een set bij elkaar gevoegde gegevens en misschien moet je naar dat laatste niveau kijken. Bewaartermijnen spreek je dan af bij de koppeling van een kernregistratie/register naar een bepaald zaaksysteem en bij de logging in het zaaksysteem, die kan reconstrueren op welk moment en door wie bepaalde gegevens zijn samengevoegd tot (bijvoorbeeld) een document, zodat deze weer voor verantwoording kunnen worden opgeroepen. Dat gaat natuurlijk wel een beetje uit van een ideale situatie als in common ground.
    Wat betreft de samenwerking met de universiteiten, die is in ons geval tot stand gekomen via ons Chief Technology Office (CTO) die zich bezig houden met innovatie binnen de gemeente. Zij hebben ons ook geholpen bij het opstellen van passende onderzoeksvoorstellen. De UvA organiseert elk jaar een thesis fair waar opdrachtgevers hun onderzoeksvoorstellen presenteren, masterstudenten kunnen dan solliciteren als een opdracht ze aanspreekt om op af te studeren. Zie: https://informatics.amsterdam/.

    Verwijderde gebruiker
  • Hoi Chido,
    Je introduceert zelf de term “dark archives”, maar ik had het in mijn artikel over “dark data”. Dat is denk ik niet helemaal hetzelfde, het kan heel goed om data gaan die geen archiefwaarde hebben (bijvoorbeeld omdat de informatie die de data vertegenwoordigt in andere vorm al in een archief zit of omdat de informatiewaarde simpelweg is vervallen).
    Wij hebben verweesde data gebruikt die bij ons op de fileshares aanwezig was en het onderscheid tussen niet ontsloten archief en ongeordende bestanden zie ik zelf niet zo scherp. Volgens mij gaat het in beide gevallen om hetzelfde: grote hoeveelheden data die handmatig eigenlijk niet meer te ordenen zijn. Overigens heeft de student eerst gebruik gemaakt van een bestaande academische set trainingsdata voordat hij het algoritme heeft toegepast op onze data (die laatste is ook te privacygevoelig voor een deelbare scriptie). De gemeentedata die wij uiteindelijk hebben gebruikt was zo’n 100GB, dat was minder dan we weer eerst hadden willen gebruiken (meer dan 4TB), maar daarbij liepen we tegen technische problemen aan op het gebied van beschikbare rekenkracht. Bovendien werd de tijd in dit geval ook gelimiteerd door de beschikbare tijd binnen het afstudeertraject van de student.
    Verder moet je het ook zien als een onderzoek waarbij ‘het onderzoek’ zelf eigenlijk al een doel op zich is omdat dit tot leerpunten leidt die je weer verder kunnen brengen bij een vervolg. Wij hebben ons in overleg met onze interne AI-specialisten gericht op NLP omdat ons dat de meest kansrijke techniek leek voor dit specifieke vraagstuk. Er zijn wel gerelateerde onderzoeken gedaan met andere technologieën, bijvoorbeeld een onderzoek waarin een algoritme is ontwikkeld dat echte mensen op foto’s kan vervangen door nepmensen, zodat we foto’s van de stad openbaar kunnen maken zonder de privacy van toevallige passanten te schaden. Stel je deze vraag omdat je denkt dat er met andere technieken een grotere succeskans is? Als je daar concrete ideeën over hebt, dan houd ik me aanbevolen!
    Wat betreft verdere toepassing op selectie: al ben ik zelf geen whizzkid, ik kan me voorstellen dat je entities gebruikt om selectiecategorieën te voorspellen m.b.v. een statistisch model en daar gaat een goede gelabelde set trainingsdata dan weer bij helpen. De gebruikte trainingsdata bevatte veel data uit het vergunning- en handhavingdomein. Op basis van termen die in de data zelf worden gebruikt, zoals “verlening”, “weigering” ten aanzien van resultaat en termen als “evenement”, “exploitatie” en ”sloop” zou een algoritme kunnen interpreteren om welk type vergunning het gaat en wat de uitkomst van het proces was. Met zulke gegevens kun je vrij eenvoudig een vertaaltabel maken naar de selectielijst.
    Je noemt een aantal complexe voorbeelden als “vervallen na belang” en “70 jaar na overlijden”. De stelregel is: als het voor een mens moeilijk is, dan is het voor een algoritme ook moeilijk. Als het voor een mens makkelijk is, dan is voor het een algoritme nog veel makkelijker. Ons idee is om eerst informatieobjecten op te sporen waarvoor de selectiecriteria minder complex zijn. Als we dat kunnen, dan zijn we al een heel eind verder. Processen met hele ingewikkelde selectiecriteria zou dan een vervolgstap kunnen zijn, waarbij ik niet uitsluit dat hier meer menselijke beoordeling bij komt kijken. Al kun je er natuurlijk ook voor kiezen om in plaats van 70 jaar na overlijden, een rekenregel te maken die uitgaat van 170 jaar na geboortedatum. Dat is minder accuraat, maar bij grote hoeveelheden data is dat een kwestie van risicoafweging (zoals de nieuwe archiefwet zegt: “passende maatregel”).
    Voor de goede orde vertel ik er meteen bij dat het vergunningenarchief op orde is, we hebben de data voor dit onderzoek (die feitelijk dubbel is) van een oude applicatieschijf (waarvan de applicatie in het proces van uitzetten zit en de content al is gemigreerd) gehaald puur omdat de aard van de data (veel persoonsgegevens, veel verschillende processen) geschikt was voor het onderzoek. Het doel was niet om deze specifieke dataset te kunnen beheren, het doel was om te ontdekken wat we met AI kunnen doen.

    Verwijderde gebruiker
  • Hoi Chido,
    Je introduceert zelf de term “dark archives”, maar ik had het in mijn artikel over “dark data”. Dat is denk ik niet helemaal hetzelfde, het kan heel goed om data gaan die geen archiefwaarde hebben (bijvoorbeeld omdat de informatie die de data vertegenwoordigt in andere vorm al in een archief zit of omdat de informatiewaarde simpelweg is vervallen).
    Wij hebben verweesde data gebruikt die bij ons op de fileshares aanwezig was en het onderscheid tussen niet ontsloten archief en ongeordende bestanden zie ik zelf niet zo scherp. Volgens mij gaat het in beide gevallen om hetzelfde: grote hoeveelheden data die handmatig eigenlijk niet meer te ordenen zijn. Overigens heeft de student eerst gebruik gemaakt van een bestaande academische set trainingsdata voordat hij het algoritme heeft toegepast op onze data (die laatste is ook te privacygevoelig voor een deelbare scriptie). De gemeentedata die wij uiteindelijk hebben gebruikt was zo’n 100GB, dat was minder dan we weer eerst hadden willen gebruiken (meer dan 4TB), maar daarbij liepen we tegen technische problemen aan op het gebied van beschikbare rekenkracht. Bovendien werd de tijd in dit geval ook gelimiteerd door de beschikbare tijd binnen het afstudeertraject van de student.
    Verder moet je het ook zien als een onderzoek waarbij ‘het onderzoek’ zelf eigenlijk al een doel op zich is omdat dit tot leerpunten leidt die je weer verder kunnen brengen bij een vervolg. Wij hebben ons in overleg met onze interne AI-specialisten gericht op NLP omdat ons dat de meest kansrijke techniek leek voor dit specifieke vraagstuk. Er zijn wel gerelateerde onderzoeken gedaan met andere technologieën, bijvoorbeeld een onderzoek waarin een algoritme is ontwikkeld dat echte mensen op foto’s kan vervangen door nepmensen, zodat we foto’s van de stad openbaar kunnen maken zonder de privacy van toevallige passanten te schaden. Stel je deze vraag omdat je denkt dat er met andere technieken een grotere succeskans is? Als je daar concrete ideeën over hebt, dan houd ik me aanbevolen!
    Wat betreft verdere toepassing op selectie: al ben ik zelf geen whizzkid, ik kan me voorstellen dat je entities gebruikt om selectiecategorieën te voorspellen m.b.v. een statistisch model en daar gaat een goede gelabelde set trainingsdata dan weer bij helpen. De gebruikte trainingsdata bevatte veel data uit het vergunning- en handhavingdomein. Op basis van termen die in de data zelf worden gebruikt, zoals “verlening”, “weigering” ten aanzien van resultaat en termen als “evenement”, “exploitatie” en ”sloop” zou een algoritme kunnen interpreteren om welk type vergunning het gaat en wat de uitkomst van het proces was. Met zulke gegevens kun je vrij eenvoudig een vertaaltabel maken naar de selectielijst.
    Je noemt een aantal complexe voorbeelden als “vervallen na belang” en “70 jaar na overlijden”. De stelregel is: als het voor een mens moeilijk is, dan is het voor een algoritme ook moeilijk. Als het voor een mens makkelijk is, dan is voor het een algoritme nog veel makkelijker. Ons idee is om eerst informatieobjecten op te sporen waarvoor de selectiecriteria minder complex zijn. Als we dat kunnen, dan zijn we al een heel eind verder. Processen met hele ingewikkelde selectiecriteria zou dan een vervolgstap kunnen zijn, waarbij ik niet uitsluit dat hier meer menselijke beoordeling bij komt kijken. Al kun je er natuurlijk ook voor kiezen om in plaats van 70 jaar na overlijden, een rekenregel te maken die uitgaat van 170 jaar na geboortedatum. Dat is minder accuraat, maar bij grote hoeveelheden data is dat een kwestie van risicoafweging (zoals de nieuwe archiefwet zegt: “passende maatregel”).
    Voor de goede orde vertel ik er meteen bij dat het vergunningenarchief op orde is, we hebben de data voor dit onderzoek (die feitelijk dubbel is) van een oude applicatieschijf (waarvan de applicatie in het proces van uitzetten zit en de content al is gemigreerd) gehaald puur omdat de aard van de data (veel persoonsgegevens, veel verschillende processen) geschikt was voor het onderzoek. Het doel was niet om deze specifieke dataset te kunnen beheren, het doel was om te ontdekken wat we met AI kunnen doen.

    Verwijderde gebruiker
  • Een enorm probleem, die aanwas van gegevens. Uit meerdere onderzoeken blijkt dat overheden een veelvoud aan gegevens beheren, die zij niet (meer) kennen, niet nodig hebben en onnodig met zich meeslepen; het gaat dan om de ROT-data: redundant, obsolete en trivial. Uit een onderzoek dat ik deed bij een woningcorporatie bleek 90% van alle informatie die op dat moment beheerd werd, onder deze categorie viel; we hebben dan ook veel besparingen kunnen bereiken door grote delen van deze data te vernietigen aan de hand van de selectielijst voor woningcorporaties (opgesteld door VHIC). Het doordacht opruimen hiervan aan de hand van selectielijsten levert dan ook niet alleen veel winst op in de beheerskosten, maar ook vanuit milieuaspect is dit belangrijk: elke TB die te veel wordt beheerd, levert twee ton aan CO2-uitstoot per jaar (servers verbruiken nu eenmaal stroom, moeten gekoeld worden enz); maar ook kost de opslag van deze TB al snel tussen de 1500 en 6000 euro op jaarbasis (aan beheerskosten, niet aan louter opslag, ook hiervan zijn internationale onderzoeken beschikbaar, maar die laten zich moeilijk vergelijken met de Nederlandse situatie). Ik schreef hierover al eerder, zie bijvoorbeeld http://inforoads.blogspot.com/2020/10/digitale-archieven-in-de-cloud-en-co2.html en http://inforoads.blogspot.com/2020/01/archieven-en-co2-ruim-je-data-op.html . AI gaat ons helpen om beter te selecteren, absoluut. Met https://startxt.ai/ ben ik bekend; hoopvolle ontwikkelingen; maar ook door bijvoorbeeld te selecteren op documenttypen of -eigenschappen zoals perioden, extensies, bewaarniveaus kan al heel wat bereikt worden in de huidige situatie.

    Er zijn ook nu al, zonder AI, goede resultaten te behalen door de waarde van informatiebestanden op basis van de algemene categorieën uit een selectielijst te behandelen. Dit betekent onder meer
    - het bepalen wanneer de organisatie digitaal is gaan werken. Voorafgaand aan dat moment was het papieren archief nog leidend; de digitale data kan in veel gevallen worden gezien als conceptmateriaal en zonder bezwaar worden vernietigd;
    - het invoeren van SPOTS, single points of truth waarin je met gebruikers afspreekt hoe zij hun informatie opslaan, bijvoorbeeld in welke applicatie, maar dat dan ook iedereen deze werkwijze volgt en er geen uitzonderingen meer zijn: alle informatie die bij een zaak hoort, wordt dáár opgeborgen, niet anders. Deze afspraken hou je bij in een informatiestructuurplan/DSP. Complicerend hierbij is dat uit veel procesapplicaties wel de documenten kunnen worden verwijderd, maar de metagegevens niet: hier hebben leveranciers nog een opgave;
    - het samen met de gebruikers en het SIO aan de hand van de selectielijst bepalen welke bestanden waarde vertegenwoordigen voor de organisatie en welke definitief niet: deze kunnen direct of op termijn weg. Veel gegevens betreffen werkdossiers, dubbelen, kopieën die slechts een tijdelijke waarde hebben gehad en waarvan ook een 'officieel' dossier aanwezig is. Ze zijn op een bepaald moment alleen maar ballast en leiden tot verwarring (welke versie was nu ook weer de juiste);
    - het ontdubbelen van gegevens. Dan is het wel de vraag waar het bewaarexemplaar dient te worden opgeslagen: wij kiezen voor bewaring bij de bron;
    - het bekijken voor welke documenttypen een algoritme kan worden bepaald wanneer zij zonder verdere tussenkomst vernietigd kunnen worden (denk aan ZIP-files, die worden geopend en ergens anders geplaatst, de ZIP blijft gewoonlijk staan).

    Zeker in grote organisaties, zoals de gemeente Amsterdam, is het goed mogelijk om de enorme series aan dossiers/zaken op een uniforme manier te behandelen en, al dan niet via AI, de kennis op te bouwen om hieruit stelselmatig te vernietigen. Voorbeeld: van een bouwvergunning kunnen de verschillende documenttypen gelabeld worden, bepaalde labels kunnen dan automatisch uit het dossier worden gelicht na verloop van jaren. En ja, dit is een zaak van design.

    In gesprek blijven met een ICT-afdeling is hierbij een absolute voorwaarde. Doorgaans zijn medewerkers hiervan huiverig voor het vernietigen van informatie: zij zijn er immers om te zorgen dat de informatie altijd beschikbaar is voor iedereen die het recht heeft om kennis te nemen en zullen daarom waarborgen willen die het vernietigingsproces omgeven. Hier moet nog wel een hobbeltje worden genomen. En zeker de eerste jaren zullen we goed moeten beseffen dat AI een hulpmiddel is, maar dat we steeds over de schouder moeten blijven meekijken om verkeerde selecties te voorkomen.


    Ad van Heijst

Trefwoorden