#daaromarchiveren: Oude tweet Trump spreekt zijn eigen uitspraak tegen over verkiezingsfraude
De factcheckers van de BBC hebben onder andere een oude tweet van Trump uit 2018 gebruikt om zijn bewe...
Nog wat nuttige informatie:Ik heb de site van maandagavond 10 augustus 2009 opgeslagen.Alle bestanden van http://www.archief20.org en de afbeeldingen die vanaf andere sites zijn ingevoegd, zijn gekopieerd. De inhoud van links naar andere sites dan http://www.archief20.org is niet gekopieerd.Schattingen kun je tot 29 augustus 09.00 uur (dan ben ik terug van vakantie) hier onder achterlaten.1
De afgelopen maanden heb ik geprobeerd deze community te archiveren.Vandaag na 17 uur downloaden en parsen, één keer rebooten en één ontregeld bureaublad ben ik er in geslaagd alle bestanden naar mijn harde schijf te kopiëren. (Een analyse van de resultaten volgt later... En ik moet ook nog uitzoeken hoe ik het 'versiebeheer' kan regelen.)Om dit 'succes' te vieren, een simpele prijsvraag:Hoeveel bestanden omvat http://www.archief20.org?Hoe groot (in MB) is http://www.archief20.org?Ik heb twee Archief 2.0-buttons voor degene die het dichtst in de buurt komt.
Reacties
Daar ben ik weer. In navolging van mijn schatting, die ik al via Twitter doorgaf, nogmaals: ik schat dat het uiteindelijk om 2 Gb (2.000 Mb) gaat en om een slordige 10.000 bestanden. Ik hoop dat het een stuk minder is voor je... haha! ;-) (En een fijne vakantie toegewenst natuurlijk!)
@Christian Dat jij al die moeite doet voor een button... Heb je die nog niet? ;-)
@Ingmar: Ssst... Ik ben gewoon dol op spelletjes. Dan daarbij is iedereen vast nog met die loterijbeweging bezig, dus helemaal niet gefocussed op déze prijsvraag. Kan ik mooi m'n slag slaan! Ha!!
Ik ben vooral benieuwd welke tool(s) (software) je hebt gebruikt voor het archiveren? Misschien een open source tool zoals HTTrack? Of Firefox add-ons zoals ScrapBook, DownThemAll of Mozilla Archive... ? - en.Wikipedia: Web archiving- en.Wikipedia: Archive site
@Joost Ik ben in juni begonnen met HTTrack, maar liep steeds vast: te veel en te lang. Deze succesvolle download heb ik nu gedaan met PageNest, maar ik denk dat het toch ook met HTTrack mogelijk moet zijn. Zie hier voor een verslag tot nu toe. Vandaag zal ik ook de bevindingen van PageNest toevoegen. De Firefox add-ons heb ik (nog) niet geprobeerd. Geen interesse in een button?
Jazeker heb ik interesse in zo'n button :-) Je schreef eerder: "... 1,3 GB, 6.771 bestanden en 9.745 mappen verder...." en "... 7.909 bestanden in 6.544 mappen, met een totale omvang van 523MB...". En je meldt "... diepte 10 leverde hetzelfde op als voorheen: 2Gb en nog niet klaar...." en "... Uiteindelijk heeft het een uur of 17 geduurd...". Hmmm, ik gok op ca. 12.560 bestanden en ca. 2560 MB. Vraag, kom je dubbels tegen in het archief qua afbeeldingen. Kortom, is het een beetje slimme kopie?
Met een paar weken vertraging is hier dan toch de uitslag van de prijsvraag. Op 10 augustus 2009 bestond archief20.org in totaal uit: 67894 bestanden met een totale omvang van 1.939.220 KB Alle deelnemers hebben een button gewonnen. Ze zijn onderweg.
Met het aantal KB's zat ik wel goed in de buurt, maar het aantal bestanden verbaast me toch!
Mijn prijs(je) is binnen :-) Zie -> foto op Flickr. Dank je Ingmar.
Lees net een bij deze 'draad' passende tweet van Hay Kranen (@huskyr): 'Heeft even een @vpro mirrortje voor #wikileaks in de lucht gehesen :) Voor de nerds: 'httrack' werkt beter dan 'wget'. http://bit.ly/g7aAFJ' (bron). De bit.ly link verwijst naar: 'VPRO host mirror Wikileaks'.
Een aanvulling op mijn reactie van gisteren: 'Hoe zet je een Wikileaks mirror op?', een citaat: "... uiteindelijk hebben we gebruik gemaakt van httrack wat nog simpeler werkt. Httrack is er overigens ook in GUI versies voor mensen die de command line niet beheersen."