Praktijkvraag: hoe grote bestanden te digitaliseren?

  • okt 2012
  • Verwijderde gebruiker
  • ·
  • Aangepast 27 jun
  • 14
  • 138
Verwijderde gebruiker
KIA Community
  • Christian van der Ven

Beste mensen, ik heb een vraag uit de praktijk: mag je bij digitalisering van een groot bestand, deze splitsen in kleinere deelbestanden. Het gaat om besanden met medere documenten van verschillende oorsprong (pdf, pdf-a, doc, docx, etc.) Indien ja, aan welke voorwaarden dien je daarbij te voldoen? Indien nee, wat is de motivatie hiervoor. Achtergrond: het gaat om bestanden van 100 MB of zelfs groter dan 1 GB. De motivatie om te splitsen is: degelijke bestanden laten zich moeizaam openen en/of zijn niet vie de E-mail te versturen e'/of zijn in de praktijk moeilijk doorzoekbaar. Alvast hartelijk dank voor de reacties. Vriendelijke groeten, Ted van Lent.

Reacties

14 reacties, meest recent: 6 november 2012
  • Ted, ik begrijp je vraag, maar je startsituatie is me wat onduidelijk. Gaat het nu om nog te digitaliseren bestanden? Of gaat het om bestaande digitale (of gedigitaliseerde?) bestanden, die je graag zou willen splitsen?

    Christian van der Ven
  • Beste Christian,

    Allereerst dank voor jouw vraag.

    De startsituatie is dubbel. Het gaat om bestaande ducumentenen om nieuw binnenkomende (groter dan 1 GB). Bij de laatste kan het zowel om papier gaan als om volledig digitale bestanden of een combinatie van beide. Het gaat om zeer omvangrijke bestanden, in de al genoemde typen maar ook tif, dgw, zip, etc.

    Probleem hierbij is dat niet alles in één bestand past (ook niet als zip) dat je vervolgens kunt in één stuk kunt verzenden, waarmee je gesamelijk (denk aan cloud of vergelijkbare omgevingen) kunt werken.

    Een mogelijke oplossing is het splitsen in meerdere delen.

    Ik ben nu op zoek naar praktijkvoorbeelden, maar ook op zaak naar de theoretische bezwaren of onderbouwing.

    Hopelijk kun je (of andere lezers) mij verder helpen.

    Alvast dank hiervoor.

    Vriendelijke groeten, Ted van Lent.

    Christian van der Ven zei:

    Ted, ik begrijp je vraag, maar je startsituatie is me wat onduidelijk. Gaat het nu om nog te digitaliseren bestanden? Of gaat het om bestaande digitale (of gedigitaliseerde?) bestanden, die je graag zou willen splitsen?

    Verwijderde gebruiker
  • Dat zijn flinke bestanden, Ted... Zelf heb ik hier geen ervaring mee (wel met het doormailen van dergelijk grote bestanden natuurlijk), maar welke splitsingsmogelijkheden er zijn en eventuele (archiefwettelijke en zo?) voorwaarden daaraan zijn verbonden, da's meer iets voor de inspectiemensen onder ons. Maar degenen die ik daarvan ken, zijn volgens mij net op (herfst)vakantie. ;-) Misschien volgen er later nog enkele reacties.

    Christian van der Ven
  • Beste Christian,

    Alvast dank hiervoor.

    Ik wacht met spanning, en hoop meer reacties te ontvangen.

    Vriendelijke groeten, Ted van Lent.

    Verwijderde gebruiker
  • Ted, ik heb geen ervaring met hele grote bestanden maar ik kan mij het probleem voorstellen. Heb je wel eens aan PDF/a  2 of 3 gedacht? Het voordeel van dit type formaat is dat je diverse type bestanden (niet pdf/a) in een portfolio kan opslaan en hieraan metadata kan toevoegen. Er wordt een maximale grootte geclaimed van 381 km bij 381 km ...in gb zijn mij geen getallen bekend. Bij het openen van een bestand gebruikt pdf over het algemeen de progressieve variant toe iq je ziet op het beeldscherm al iets verschijnen terwijl het nog aan het inladen is.

    Het andere alternatief, het opsplitsen in deelbestanden, lijkt mij geen goede oplossing omdat hiermee  het beheer ervan gecompliceerder wordt. Bovendien komt het de toegankelijkheid van je archiefobjecten ook niet ten goede.

    Ik zou zeggen probeer de PDF compressor van Luratech eens uit.

    http://www.luratech.com/en/home/products/software-and-solutions-for-document-processing/document-and-data-conversion-software/luradocument-pdf-compressor.html

    Ik ben benieuwd naar je ervaringen.

    Verwijderde gebruiker
  • Bart,

    Het is mij nog te onduidelijk wat je precies wil doen. Welk probleem wil je oplossen ? Ik zie: verzenden, raadplegen en archiveren. Ik zie ook "digitalisering van een groot bestand". Misschien zit ik er helemaal naast, maar misschien heb je hier wat aan:

    - Verzenden, raadplegen en archiveren zijn verschillende zaken, die verschillende oplossingen vragen.

    - Verzenden van grote bestanden kan het beste via een werkwijze die stukje-voor-stukje verstuurt. Denk aan FTP en Wetransfer etc.

    - Raadplegen van grote bestanden zul je toch echt moeten doen met een viewer die het betreffende bestandsformaat kent.

    - Archiveren van digitale originelen, doe je m.i. het beste in het oorspronkelijke formaat, waarbij er voldoende documentatie moet zijn van dat formaat om het over ettelijke jaren nog te kunnen ontcijferen. Een open formaat is dan het beste. Dat is niet per defnitie een PDF-variant !

    - "Digitaliseren van een groot bestand" vraagt om spraakverwarring met techneuten. "Bestand" is voor hen al digitaal. "Document" is neutraler. Het digitaal maken van een groot analoog document kan leiden tot een groot digitaal bestand (hoge resolutie scan, veel pagina's in 1 PDF, multi-page TIFF, een video-bestand). Het kan ook een bestandsformaat zijn dat als container dienst kan doen (ZIP-file, e-mail met bijlagen). Het maakt niet zoveel uit hoe je de onderdelen dan opslaat, als je ze maar weer in hun oorspronkelijke samenhang kunt terugbrengen.

    Maak a.u.b duidelijk welk probleem voor jou het meest speelt.

    Verwijderde gebruiker
  • Beste Bart,

    Het gaat om de vraag "mag je een groot digitaal bestand splitsen in meerdere delen".

    En zo ja, onder welke voorwaarden mag je bestanden splitsen. (het is al digitaal).

    In de papieren praktijk was dit gebruikelijk. (sub-, deel-, volgdossier dan wel map, etc.)

    Alvast hartelijk dank voor de reactie. Vriendelijke groeten, Ted van Lent.

    Verwijderde gebruiker
  • Ted [waar komt "Bart" nu toch vandaan ??], Als je een origineel digitaal bestand gaat splitsen verander je feitelijk het document. Ik hoop dat je dat in de papieren wereld toch ook niet vaak deed: de schaar erin zetten....

    Wat wil je er mee bereiken ?

    Verwijderde gebruiker
  • Beste Jules,

    Het splitsen van papieren bestanden was (en is) heel gebruikelijk, denk maar aan sub-, deel-, volgdossiers dan wel mappen, etc. Er zijn nu eenmaal documenten die dikker zijn dan de 4 a 5 cm die in een archiefmap past. Een bestek inclusief tekeningen kan wat omvang betreft 50 cm of meer omvatten.

    Dergelijke documenten, inclusief opdracht en bijkomende stukken kunnen, zelfs als zip bestand, digitaal groter zijn dan 1 GB. Het in één bestand opslaan geeft dan al problemen bij veel aplicaties. Het digitaal verzenden (en nu eens niet via een CD-rom e.d.) is voor zover ik weet niet mogelijk. Ik ben nu op zoek naar methodieken om digitale bestanden wel te kunnen splitsten, maar dan zo dat deze op een later tijdstip weer samenvoegbaar zijn zonder onbeheersbare archieftechnische problemen. Of zijn er andere oplossingen?

    Vriendelijke groeten, Ted van Lent.

    (???OEPS???Bart???)

     

    Verwijderde gebruiker
  • Beste Ted,

    Het overzetten van grote bestanden is geen probleem met een FTP server. Hierbij wordt zelfs geen limiet gesteld aan de grootte van de bestanden. zie: http://forums.iis.net/t/1187778.aspx.

    Dit betekent dat er voor het overzetten niet geknipt hoeft te worden op welke manier dan ook. Vooral de grafische industrie werkt hier al jaren mee.

    Voor het opslaan van grote bestanden heb ik de suggestie gedaan om PDF/a-3 toe te passen

    http://www.luratech.com/en/home/products/software-and-solutions-for...

    Heb je de bestanden gelijk ondergebracht in een open en duurzaam formaat.

    met vriendelijke groet

    Aart Goedewaagen

    Ted van Lent zei:

    Beste Jules,

    Het splitsen van papieren bestanden was (en is) heel gebruikelijk, denk maar aan sub-, deel-, volgdossiers dan wel mappen, etc. Er zijn nu eenmaal documenten die dikker zijn dan de 4 a 5 cm die in een archiefmap past. Een bestek inclusief tekeningen kan wat omvang betreft 50 cm of meer omvatten.

    Dergelijke documenten, inclusief opdracht en bijkomende stukken kunnen, zelfs als zip bestand, digitaal groter zijn dan 1 GB. Het in één bestand opslaan geeft dan al problemen bij veel aplicaties. Het digitaal verzenden (en nu eens niet via een CD-rom e.d.) is voor zover ik weet niet mogelijk. Ik ben nu op zoek naar methodieken om digitale bestanden wel te kunnen splitsten, maar dan zo dat deze op een later tijdstip weer samenvoegbaar zijn zonder onbeheersbare archieftechnische problemen. Of zijn er andere oplossingen?

    Vriendelijke groeten, Ted van Lent.

    (???OEPS???Bart???)

     

    Verwijderde gebruiker
  • Ik vind het een goede vraag.

    Voor archivarissen wordt het digitaal archiveren van digitaal materiaal steeds relevanter. Digital born records kunnen ook onderdeel zijn van een archief. Bij het digitaal archiveren van analoog materiaal, archiveer je feitelijk door het materiaal te digitaliseren, of door het direct te converteren naar een digitaal variant (transcripties), of door een surrogaat te maken (EAD toegangen bijvoorbeeld). Wanneer we proberen digitaal materiaal te archiveren, lijkt het me een goede vraag om af te vragen wat hier een record is. Een record is hier dan een bestand. Maar een bestand kan veranderen. We kunnen namelijk een nieuw bestand maken door een gedeelte uit een bestaand bestand te halen. Of we kunnen een bestand aanmaken door bestaande bestanden samen te voegen. Of we kunnen nieuwe bestanden maken door een bestand op te splitsen.

    Er bestaan digitale archiveringssystemen (document/record management systems zoals Fedora, DSpace, Alfresco, etc) die dit automatisch tracken dmv versiebeheer. Aan de andere kant kunnen archivarissen of curatoren dit zelf beschrijvingen door context in de vorm van speciale toegangen voor digitale data aan te maken.

    Dit is ook misschien een verschil tussen een archivaris en een digitale curator. Wat is de rol van de archivaris voor de digitale archivering? Is er een verschil? Of is een digitale curator meer een technische applicatiebeheerder die alleen achter de PC op een paar knoppen klikt, en is de archivaris iemand die veel verder gaat dan dit en meer een onderzoekende taak heeft?

    Verwijderde gebruiker
  •  

    Beste Junte,

    Goed opgemerkt: digitaal archiveren van digitaal materiaal steeds relevanter.

    Binnen de dienst waar ik werk zijn alle initiatief documenten digitaal. Dat geldt inmiddels ook voor 75% van alle inkomende documenten (van externe bronnen, via E-mail, of samenwerkingsbronnen). Het resterende argument om nu nog papieren documenten in omloop te hebben is: de bewijslast die wij nu nog toekennen aan natte ondertekeningen en waardemarkeringen. Zodra er, voor de dienst, voldoende waarborgen zijn voor digitalisering van deze functies komt de noodzaak voor het werken met papieren documenten geheel te vervallen.

    Daarom de vraag: hoe om te gaan met bestanden die groter zijn dan 1GB, of zelfs groter dan 10GB. Het importeren (opslaan), verzenden (al dan niet als bijlage) etc. geeft dan praktische problemen. De meeste mailsystemen kunnen deze omvang niet aan. Een groot aantal applicaties eveneens niet. De nu gangbare mannier om hiermee om te gaan is: het splitsen van dergelijke bestanden in deelbestanden. Daarover gaat mijn vraag.

    Kortom: wat zijn de voorwaarden, mogelijkheden, juridische voor en nadelen, best praktijk, etc. om met grote bestanden om te gaan.

    Ik hoop hierop antwoord te krijgen van vakgenoten die dat weten.

    Alvast dank hiervoor. Met vriendelijke groeten, Ted van Lent.

    Verwijderde gebruiker
  • Ted,

    Ik keer even terug naar mijn oorspronkelijke opmerking: verzenden en archiveren moet je echt onderscheiden.

    Het (digitale) origineel ga je archiveren. Plat gezegd: blijf daar met je schaar vanaf ! Juridisch sluitend.

    Voor het verzenden gebruik je een techniek die het geheel in de goede vorm bij de ontvanger krijgt. FTP is dan het meest logisch, niet de e-mail. Vergelijk het met het versturen van een aloude encyclopedie in 23 delen: die prop je ook niet in iemands gewone brievenbus. Die bezorg je met een pakketdienst.

    Ook verzenden kan juridisch sluitend. Je moet dan gebruik maken van encryptie en beveiligde verbindingen (FTPS dus).

    Bedenk wel dat je ontvanger hier wel mee om moet kunnen gaan. Dat is echter grotendeels zijn/haar probleem.

    Verwijderde gebruiker
  • Hallo Ted, Het belangrijkste bij het splitsen en/of verzenden van zowel kleine als grote bestanden is te waarborgen dat de inhoud bij aankomst of raadplegen aantoonbaar identiek is aan het oorspronkelijke document. De techniek die hiervoor toegepast wordt, is hashing. Dat wil zeggen dat op een digitaal bestand een berekening met cryptografische technieken wordt losgelaten die als eindresultaat de unieke handtekening van het document produceert. Als op een later tijdstip deze berekening opnieuw wordt uitgevoerd is, dan komt daar dezelfde unieke handtekening (of getal)uit. Deze techniek wordt tegenwoordig vaak toegepast bij verzenden van informatie maar ook bij opslag waarvan aangetoond dient te worden dat er geen wijzigingen zijn aangebracht aan het origineel. Dit kan in het geval van splitsen voor verzenden ook toegepast. (Feitelijk wordt bij verzenden het elektronische document ook al in stukjes van max 32kb gehakt in een tcp/ip pakket) Als bij ontvangst en reconstructie het geheel weer de correcte handtekening oplevert dan is het aannemelijk (met zeer geringe foutkans) dat het bestand correct is overgekomen. De Library of Congress gebruikt dit om bestanden op dvd of cd te controleren bij aanmaak en later verval van het opslag materiaal. De hashing technieken waar dit over gaat zijn oa. MD5 en de SHA functies. Er zijn verschillende tools op internet die dit kunnen controleren oa. Hashtab Groet Willem van den Berg Fotoscan

    Verwijderde gebruiker

Trefwoorden