Het archiveren van ongestructureerde informatie op netwerkschijven

  • okt 2022
  • Wouter Verdaas
  • ·
  • Aangepast 27 jun
  • 4
  • 139
Wouter Verdaas
InformatiehuishoudingOverheden
  • Welmoed Altena
  • Nicole Fielmieg
  • Daphne Martin
  • Laura Koopmans
  • Frank Smeets
  • Leonoor Hamers
  • monique witter
  • Alice Strating
  • Monique van der Linden
  • Jules Pasveer
  • Heleen Hoes
  • Thessa Meijlis
  • Riemer Janssen
  • Michael Nieuwenhuis

Samenvatting

Afgelopen jaar heeft een collega van mij een mooi project gedraaid om de projectendossiers op de netwerkschijven op te schonen. Hij heeft hierover een leuke blog geschreven.

Iedereen weet dat digitaal werken grote voordelen heeft, zoals plaats- en tijdonafhankelijk kunnen werken en bijna ongelimiteerde opslagmogelijkheden. Dat laatste voordeel is echter ook een nadeel: het is wel heel verleidelijk alles maar te bewaren waarvan je denkt dat je het later nog wel een keer kunt gebruiken. Beheerders van netwerkschijven weten hier alles van, daar kijkt men niet meer op van een TB meer of minder.

Een ander gevolg is dat het klassieke archiveren op documentniveau niet meer realistisch is, ook al omdat de meeste bestanden op netwerkschijven ongestructureerde informatie bevatten.

In de gemeente waar ik werk bood de afdeling Ruimtelijke Uitvoering (elders bijvoorbeeld Beheer Openbare Ruimte geheten) ruim 1000 afgesloten projecten ter archivering aan, samen 500.000+ documenten/1,05 TB. Voor de goede orde, dit is ongeveer een 0,5 % van onze netwerkschijven. Het gros van deze projecten is zo lang geleden afgesloten dat ze onder het regime vallen van de Selectielijst voor archiefbescheiden van gemeentelijke en intergemeentelijke organen, opgemaakt of ontvangen vanaf 1 januari 1996.

Hoe dan wel deze onhandelbare massa in het archief te krijgen?

Wij zijn in contact gekomen met een jong softwarebedrijf dat met behulp van Artificial Intelligence een oplossing heeft uitgewerkt die zoden aan de dijk zet. Hun software is in staat op basis van taal een verzameling documenten te klasseren, oftewel op verschillende stapels te leggen. Stapels die door de opdrachtgever gedefinieerd kunnen worden.

Om concreter te worden: in projectmappen hoeven geen facturen bewaard te blijven, die worden beheerd in ons financieel systeem, maar veel projectleiders hebben die gemakshalve aan de projectmap toegevoegd. Hetzelfde geldt voor aanbestedingsdocumenten, productbladen, verzekeringspolissen etc.

Als je weet welke documenten niet bewaard hoeven te blijven in een te bewaren dossier, dan kan de genoemde software op basis van criteria een stapel facturen samenstellen, die vervolgens op een vernietigingslijst geplaatst kan worden. Of omgekeerd, sommige documenten uit te vernietigen dossiers moeten toch bewaard blijven, zoals opleveringsverslagen en staten van meer- en minderwerk, en kunnen op deze manier geïdentificeerd en veiliggesteld worden.

De keuze voor documentklassen en de bijbehorende criteria wordt gemaakt in overleg met en uiteindelijk door de opdrachtgever. Betekent dit de afdeling DIV hier verder geen werk meer aan heeft? Dat niet.

De software moet getraind worden om te kunnen voorspellen tot welke klasse een document behoort en hiervoor is input voor nodig, zowel van de vakspecialist van de afdeling als van de informatiebeheerder. Ook moeten de proefresultaten geanalyseerd worden, zodat de foutmarges verkleind kunnen worden. Ik vond het verbazingwekkend hoe snel de software tot goede voorspellingen kwam.

Overigens is het grappig om te zien waar de onvolkomenheden vandaan komen. De documentklasse Verzekeringspolissen bleek ineens vervuild te zijn met allerhande technische uitvoeringsdocumenten. Tja, RVS was een verzekeringsmaatschappij, maar in de wereld van de afdeling Ruimtelijke Uitvoering betekent het meestal roestvrij staal.

Kortom, deze AI-oplossing is geen tovermiddel en vergt de nodige inspanning om resultaat te leveren, maar het projectarchief zit er kwalitatief beter uit dan ik zonder die software ooit voor elkaar had gekregen. En het mooiste is, de software kan voor andere projecten weer gebruikt worden door nieuwe documentklassen te ontwerpen of aan de criteria te sleutelen. En hoewel de software hierin niet uniek is, het kan aan de hand van metadata ook de dubbelen identificeren, zelfs als de bestanden niet dezelfde naam hebben. In de casus die hierboven beschreven is, leverde dat een ‘besparing’ op van ruim 40%!

Reacties

4 reacties, meest recent: 31 oktober 2022