woensdag 23 maart 2011

Datavernietiging

Deze morgen was grijs. Maar met de belofte dat de zon er zou doorbreken, was ik blij van gemoed. Tot ik aan het licht achter een soort industriële camion stond waarop stond "[firmanaam] / archief- en datavernietiging / secret, service.". Het deed mij pijn in het hart, vooral dat middelste: dat er firma's bestaan die archieven bewust vernietigen!
Ik wist wel dat er papiershredders zijn en dat er mensen binnen bedrijven en instellingen instaan voor het managen van vertrouwelijke informatie. Ik wist ook dat er firma's zijn die ophalingen doen van oud papier, niet enkel bij particulieren maar ook bij bedrijven en instellingen. Dus onbewust moet ik ook wel geweten hebben dat bewaarde informatie op papier (archieven) of op computer (data) opgeruimd en/of vernietigd wordt.
Oud papier gewoon laten ophalen was vroeger vaak goed genoeg. Oud papier is OK zolang het niet in de weg staat in kasten of mappen. En de opslagplaats of zolder niet vol is. Papierophaling was ook gratis, want je kon er gerecycleerd papier van maken. Maar gerecycleerd papier heeft soms een kwaliteitsprobleem en ook een imagoprobleem, zodat het vandaag nauwelijks nog opbrengt. Bovendien is er nog nooit zoveel papier gebruikt als in ons "paperless(!) office"-tijdperk. Gevolg is dat papierophaling vaak niet meer gratis is, en als het nog moet  gegaranteerd vernietigd worden omwille van de content, dan kost het zeker. En zo ontstaat er een businessmodel om papier te vernietigen. Bovendien hebben bedrijven en instellingen tegenwoordig ook de plicht om geen privé-gegevens op straat te gooien, en zijn er (zonder allen over 1 kam te willen scheren!) onderzoeksjournalisten, paparazzi, chanteurs, hackers en criminelen die bij de vuilbakken gaan zoeken.
Of op oude computers data proberen te recoveren. Want er wordt wel veel geprint, maar tegenwoordig nog méér digitaal opgeslagen. Er zijn (al dan niet broodje aap-)verhalen over oude weggegooide PC's en opslagmedia (floppy's, harde schijven) met daarop nog vertrouwelijke informatie. Niet voor niets heeft de Amerikaanse overheid (uiteraard onder andere de Secret Service!) een protocol om digitale data te wissen (dat onder andere inhoudt om verscheiden malen het opslagmedium te wissen, te herformatteren en te overschrijven!). Dus ook hierop is een viabel businessmodel te bouwen.
Maar toch doet het hartzeer. Omdat het vaak "unieke informatie" is, informatie die nergens anders bestaat. En die dus bij vernietiging onherroepelijk verloren gaat. Informatie die ooit met veel zorg en ijver, of evengoed achteloos, is opgetekend of ingetypt. Geen beter voorbeeld om dit te illustreren vind ik het verhaal van de archieven ("records") van New Netherland, de toenmalige kolonie van de Nederlanden rondom Nieuw Amsterdam (New York) in de Nieuwe Wereld (Amerika). Die oorspronkelijk in Fort Orange bewaarde documenten belandden na talloze belevenissen en omzwervingen (o.a. via Boston en een Engels schip) in de bibliotheek van de Staat New York in Albany. Daar werden deze unieke documenten stiefmoederlijk behandeld, omdat de Engelsen het voor het zeggen hadden en de teksten in het Nederlands van toen niet meer begrepen werden. Een desastreuze brand in 1911 (deze maand precies 100 jaar geleden!) leek het einde, maar de plichtsbewuste bibliothecaris en immigrant uit Nederland A.J.F. Van Laer redde met gevaar voor eigen leven uit de verkoolde en ondergelopen resten 12000 pagina's archiefinformatie, en reconstrueerde alles vervolgens zo goed als mogelijk. Het duurde vervolgens nog tot 1974 toen een jonge Ch.T. Gehring deze verbrande, verwaterde, vergeelde en verbleekte documenten systematisch begon te vertalen en er zijn levenswerk van maakte. Een geheel onbekende want vergeten wereld van Nederlandse kolonisten kwam tevoorschijn! De bestseller van R. Shorto "Island at the Center of the World" is erop gebaseerd en ten zeerste aangeraden lectuur.
Maar natuurlijk is niet alle informatie uniek, en niet alle informatie is even belangrijk. Als er copies bestaan van informatie, is datavernietiging al minder erg. Maar copiëren ofte multipliceren van informatie (b.v. op een backup-schijf of "in the cloud" op Internet) is juist een voorzorg om unieke informatie te behouden, door haar niet-uniek te maken. Een typisch grapje van mijn oom die als ambtenaar werkte, was: "En mogen die dossiers weggegooid worden?" - "Ja, maar maakt er voor de veiligheid eerst maar een copieke van!".
Als het om b.v. de rekening van de stomerij gaat, dan is die informatie minder waard dan, zeg maar, een filosofisch essay. De tijd speelt ook een rol. Nieuwe informatie heeft primeur- of nieuwswaarde, maar die waarde zakt daarna snel. Maar oude informatie verlengt het menselijk collectief geheugen, want het vertelt ons over wat we niet zelf meemaakten en niet meer aan iemand anders kunnen vragen. Dus wordt die informatie weer belangrijker. Zoals een goede vriend (met ervaring als historicus-bibliothecaris-auteur-curator) me vertelde, zijn we vandaag wel blij dat we bijvoorbeeld nog uit een doodgewoon maar gelukkig overgeleverd rekeningboek van de Zwartzusters van Brussel uit de 14de eeuw vanalle dingen kunnen te weten komen, terwijl we maar weinig meer weten over de ideeën en meningen van die zusters van toen.
Een vroeger schijnbaar onbelangrijk document kan dus zo mettertijd, door "zorgvuldige bewaring" of "benign neglect" (ofte passieve bewaring), toch belangrijk worden. Benign neglect is b.v. wat we doen wanneer we spullen op zolder zetten (omdat we te lui zijn om ze weg te gooien of sorteren) en vormt geen probleem zolang er plaats genoeg is. (Vooral mensen met grote zolders vinden dan ook later "schatten op zolder".). Zorgvuldige bewaring is b.v. wat we als loontrekkende moeten doen met uittreksels en andere stukken om later pensioen te kunnen trekken.
Maar we kunnen ook niet álles bewaren. Ons leven draait immers niet alleen om het verleden, maar ook om het heden en om de toekomst (zie de 9de Regel  in http://willemgijsels.blogspot.com/2010/08/leefregels-voor-studenten.html ). Maar daarover moeten we ons niet al teveel zorgen maken. Persoonlijk schat ik dat zelfs na 100 jaar zowat 90% van alle informatie verloren gaat. Van sommige mensen zowat alles (b.v. kinderen in Afrika), van anderen (b.v. royals) haast niets. Door brand of houtworm of muizen, of door gecrashte computers of onleesbare CD's. Maar ook gewoon door verwaarlozing of overlijden van mensen.
Er zijn grofweg 2 manieren om op langere termijn verlies van informatie tegen te gaan. Actieve bewaring vereist tussenkomst van de mens, b.v. om de datadrager te vernieuwen (denk aan de copiïsten destijds in de abdijen, dát was monnikenwerk!). Of het gebruik van datadragers van hoge kwaliteit voor langdurige passieve archivering, zoals zuurvrij papier of gold-plated DVD's. Dat laatste wordt gebruikt voor belangrijke of symbolische documenten. Deze 2 mogelijkheden garanderen dan wel goede bewaring, maar nog niet de leesbaarheid wanneer het na lange tijd teruggevonden wordt. Van kleitabletten is nu empirisch bewezen dat ze 3000 jaar bewaard kunnen worden, maar kennis over het spijkerschrift erop was verloren gegaan. Ook de kennis van cobol in programma's op taperecorders was practisch vergeten toen we die programma's moesten aanpassen aan Y2K. De informatie was gewoon verworden tot streepjes en tot nullen en enen.
Dat informatie verloren gaat, is echter niet altijd zo slecht. Ten eerste omdat mensen binnen 100 jaar al die desktop-published schrijfsels en al dat oeverloos geblog (en meer en meer onbenullig getwitter) van vandaag niet meer zouden willen lezen -- en informatie in the cloud heeft meer kans om te overleven dan offline informatie in fysieke vorm of op computer. Maar ook omdat we al die informatie niet meer zouden kunnen blijven behappen. De hoeveelheid data die elk jaar wordt geproduceerd, groeit exponentieel. Google zou elke 7" een kapotte harde schijf in 1 van hun datacenters vervangen (die informatie is bij hen ook automatisch ontdubbeld! En bij failure wordt er omheen gerouted). Ik las in een interview met Cas Goossens dat er de laatste jaren per jaar zon 160 miljard GB aan informatie wordt geproduceerd. En ergens vorig jaar passeerden we 1,2 zettabyte (=1,2x 10exp21) aan globale informatie (zie http://en.wikipedia.org/wiki/Zettabyte )!
En alsof dat nog niet genoeg is, nam Google zich bovendien voor om met Google Books ook informatie van vóór de digitale revolutie online beschikbaar te stellen. Een zeer nobel en uiterst belangrijk initiatief, dat niet genoeg kan bejubeld worden. Niet alleen wordt informatie van quasi-vergeten boeken herontdekt, de informatie wordt ook makkelijker doorzoekbaar en opvraagbaar. Het aloude probleem van storage vs retrieval wordt daardoor verlicht, want vroeger waren boeken op 1 of enkele plaatsen raadpleegbaar en was een archief er vooral als repository voor later. Die ingescande informatie is al gefilterd en ouder dus in het algemeen belangrijker dan wat er vandaag gepubliceerd wordt. Google kan die ontzaglijke hoeveelheden informatie aan, maar voor hoelang nog? Geldt er voor media-opslag ook een Wet van Moore om de informatie-explosie de baas te blijven?
Toch kunnen we van al die informatie best wat missen. Er is namelijk een information overload. We krijgen de informatiestroom die op ons toekomst, niet meer verwerkt. En zoeken naar de juiste informatie wordt meer en meer als zoeken naar een speld in een hooiberg. We hebben tegenwoordig al search engines als Google Desktop nodig om in bestanden en emails op onze eigenste PC thuis informatie terug te vinden. Gelukkig is er ook veel noise, er is veel kaf tussen het koren. Maar hoe moeten we de selectie maken van wat we bewaren en wat we weggooien? Dat is veel minder duidelijk. Zonder dat we het goed beseffen, worden daarover beslissingen genomen door hoofdredacteurs/online publishers (op korte termijn, en gebaseerd op huidige relevantie en layout) en archivarissen/webmasters (op lange termijn, en gebaseerd op toekomstige waarde en opslagcapaciteit). De archivaris/webmaster is dan ook "The Keeper of the Books", diegene die de verantwoordelijkheid heeft over het bewaren van informatie voor later. Zoals in het wat mysterieuze gedicht van J.L. Borges ( http://inwardboundpoetry.blogspot.com/2005/11/11-keeper-of-books-jorge-luis-borges.html ). Op internet betekent het echter eerder -- en ook letterlijk -- "boekhouder", maar dat bedoel ik niet. Hoewel... wat zij doen, komt precies overeen met het rekeningboek van de Brusselse Zwartzusters!
Het moge overigens duidelijk zijn dat het hier gaat om de informatie op zich, en niet om de vorm (b.v. een mooie facsimile-uitgave) of drager ervan (b.v. een computerbestand of een waardevol historisch manuscript). Maar de informatie zelf doet zich voor in verschillende digitale gedaanten. Het zijn weliswaar allemaal bits en bytes (of tegenwoordig MB's en TB's!), maar een tekstbestand (".txt") of word-bestand (".doc", wie kent nog wordperfect-bestanden?) of spreadsheet-bestand (".xls") of publicatie-bestand (".pdf") of presentatie-bestand (".ppt") of markup-bestand (".xml") zijn niet hetzelfde. Er zijn er nog veel meer, proprietary en publieke, oude en nieuwe, veel- en weinig gebruikte. Letterlijk 100-en extensies bestaan er, ook al is het allemaal "data"! En dan heb je nog foto's (".jpg"), films (".mpg"), animaties (".gif") enzovoort, die ook "data" zijn maar moeilijker doorzoekbaar. Daarvoor is extra randinformatie nodig die apart of ingebed in het bestand wordt opgeslagen.
Tenslotte is er ook persoonlijke, privé, intieme informatie waarvan we niet misschien willen of wensen dat die bewaard wordt. Uniek of belangrijk, dat doet er niet toe. Gegevens over ons worden veel meer en veel langer dan vroeger, en tegenwoordig zowat overal bijgehouden. Informatie op paspoorten, bank- en klantenkaarten, maar ook onze search queries op Google, de content van onze emails, gegevens van online aankopen, wat we typen op twitter, sms of facebook. Maar daar hebben we niet zoveel controle over -- tenzij je als een eremiet in een grot gat zitten. En dan nog komen de mensen op je af (à la "The life of Brian", zie http://www.youtube.com/watch?v=N-isGzfYUZ4 ). En toch heeft eenieder het recht te weten wat er met informatie over hem gebeurt, of tenminste die informatie in te kijken. Voor BV's en andere beroemde wereldburgers gelden overigens andere regels (b.v. foto's in publiek domein) maar ook zij hebben rechten (b.v. portretrecht). Dat moet gerespecteerd worden. Onlangs verkondigde de CEO van Google Eric Schmidt een nogal absoluut standpunt: "If you don't want things to be public, maybe you shouldn't be doing them". Hij had het weliswaar eerder over transparantie van informatie, maar privacy is ook niet onbelangrijk.
(foto: eigen foto)

1 opmerking:

  1. Hi Willem, leuk artikel!

    Ik kan me best voorstellen dat ze data uit een bibliotheek niet zomaar moeten verwijderen! Je merkt nu wel dat om zulke dataverlies tegen te gaan alles digitaal wordt opgeslagen, indien het ruimte moet maken
    voor overige boeken. Desalniettemin heeft data vernietiging wel z'n voordelen ten opzichte van het met het grof vuil weggooien. D'r zijn namelijk wel meerdere gevallen geweest waar data wordt ontvreemd uit de biobakken van bedrijfscomplexen.

    BeantwoordenVerwijderen

Zoeken in deze blog