Kuidas saavad nii Malluka blogi kui ka Ilvese säutsud Eesti digipärandisse?
Millise materjaliga hakkavad tööle ajaloolased aastal 2218? Suure tõenäosusega saab nende algmaterjaliks mõni teie säuts, veebileht või mõtteavaldus Reidi tee teemal. Aga mismoodi?
"Tartumaal hukkus teelt välja kihutanud noor mees", "Kas see näitab, et ma olen tõeline põhjamaalane, kui mind häirib korraliku talve puudumine rohkem kui korraliku suve puudumine?", "Ma vannun teile, et see moment, kui vanajumal mõistust jagas, olin mina ennast sättinud sinna järtsu, kus saiakesi pakuti."
Mis on neil kolmel tekstil ühist? Peale selle, et need kõik on ilmunud 5. jaanuaril 2018, on need kõik osa Eesti digitaalsest kultuuripärandist. Esimene neist Delfis ilmunud uudis, teine poliitik Arto Aasa säuts ja kolmas Malluka blogi värskeima sissekande esimene lause. Need laused on salvestunud osakeseks Eesti veebiajaloost, sest rahvusraamatukogu digitaalarhiivi osakond talletab neid veebilehti tuleviku uurijate jaoks regulaarselt.
Tagasivaade: ERRi uudisteportaal aastal 2008
ERR-i veebiuudiste esikülg aastal 2008 Autor: Internet Archive/kuvatõmmis
Õigemini salvestatakse kõik .ee lõpulised domeenid. Lisaks sellele on veebiarhiveerijatel nimekiri tähtsatest veebilehtedest nagu riigikogu ja valitsuse leht, valdade lehed või valimiste, olümpiamängudega seotud ning uudisteportaalide lehed. Samuti salvestatakse ka riigi- ja kultuuritegelaste avalik veebielu. Selleks on rahvusraamatukogul seaduses antud õigus ja ka kohustus. See tähendab, et ideaalis võiks ka 200 aasta pärast vaadata neidsamu Arto Aasa säutse või Delfi uudiseid.
Arhiveerimisel kasutatakse roboti Heritrix abi, mis etteantud parameetreid järgides laeb veebist alla veebisaidi koos kõigi kuvamiseks vajalike elementidega ja salvestab need WARC-vormingusse. Viimane tähendab seda, et hiljem on võimalik spetsiaalse tarkvara abil arhiivis olevat veebisaiti kuvada nii nagu see nägi välja arhiveerimise hetkel.
Arhiveerimisroboti töö ei ole lihtne. Peale selle, et robot – täpsemalt öeldes siiski arvutiprogramm – töötab edasi ka pärast seda, kui inimestel on juba tööpäev läbi, ajavad veebilehed robotit vahepeal segi pahatahtlike programmidega. Põhjus on selles, et robot käitub veebilehega pahavarale sarnaselt. Ta läheb lehe koodi ning hakkab seal esitama hulgaliselt päringuid, et leht võimalikult süsteemselt salvestada. Hästi turvatud arhiveeritav leht aga arvab, et see on DDoS-rünnak (Denial-of-service attack, mida kasutati ka näiteks pronksiööl veebilehtede maha võtmiseks) ja blokeerib arhiveerimisroboti enda lehele juurde pääsemast.
Video: Siim Lõvi
Sellega arhiveerimisroboti väljakutsed ei piirdu. Teinekord teeb veebilehe talletamise keeruliseks ka sobimatu või uus tehniline lahendus. Näiteks on keeruline nende lehtedega, mis kerides sisu juurde laevad – robot lehte edasi rullida ei oska ja nii võib päris suur hulk sisu tema jaoks peitu, meie jaoks aga salvestamata jääda. Probleeme tekib ka skriptirikaste saitide ja voogmeedia abil edastatava heli või videoga, nt Youtube’i videotega.
Rahvusraamatukogu arhiveerimisrobot pole ka just enam tehnoloogia viimane sõna. "See on meil päris vana," nentis rahvusraamatukogu veebiarhiveerimise juhtivspetsialist Tiiu Daniel. Roboti uuendamine toimub peaasjalikult õhinapõhiselt, programm on avatud lähtekoodiga, mida vabatahtlikud saavad soovi korral täiustada. "Tehnoloogiliste väljakutsetega tuleb tulevikus ilmselt rinda pista veelgi," lisas Daniel.
Rahvusraamatukogu teeb suuremahulisi arhiveerimisi ja väiksemaid valitud veebilehtede salvestamisi. Esimese all peetakse silmas valimatu, suure hulga Eesti veebisaitide (tippdomeeniga .ee jm tippdomeenidel nagu .eu, .com jne. asuva Eestiga seotud veebisisu) arhiveerimist. Seda kasutatakse peamiselt põhjusel, et praegusel hetkel on võimatu ennustada, mis võib tulevikus uurijatele oluliseks osutuda.
Saitide puhul rakendatakse mahu piiranguid, kogudes igalt saidilt näiteks esimesed 300 MB. Kogutud materjalile tehakse pistelist visuaalset kontrolli ja automatiseeritud kvaliteedikontrolli. Taolist arhiveerimist tehakse kord aastas ja see tähendab roboti jaoks mitme kuu pikkust tööd.
Autor: Siim Lõvi /ERR
Suuremahulisele iga-aastasele arhiveerimisele lisandub väikese hulga eriti väärtuslike saitide valikuline arhiveerimine ja olulisemate Eesti ühiskonda puudutavate sündmuste veebikajastuste kohta erikogude loomine. Veebiarhiveerijad toovad näite välismaalt. Ukraina sõja ajal reisilennuki MH17 alla tulistamisest jõuti teha postitus sotsiaalmeedias (täpsemalt venelaste Facebooki analoogis), kus sõjaväelased rõõmustasid lennuki tabamise üle. Kuigi sissekanne hiljem kiirelt kustutati, jõudis üks inimene siiski postituse maailma veebiarhiivi Internet Archive salvestada.
"Parem on salvestada kõike. Me ei tea kunagi, millal miski oluliseks muutub," märkis Daniel. "Veebiarhiveerimine aitab säilitada muidu nii kaduvat digitaalset ajalugu. Mitmed huvitavad veebilehed, mis ilmuvad ja mõne aja pärast kaovad, sotsiaalmeedia postitused, Twitteri säutsud – kõiki neid saab kustutada, kuid suur hulk neist on ka Eesti veebiarhiivis alles," ütles rahvusraamatukogu digitaalarhiivi osakonna juhataja Eva-Maria Artus.
Kogutud materjal on osaliselt avalikult kättesaadav Eesti veebiarhiivi saidil. Nii nagu seadus annab rahvusraamatukogule õiguse veebi salvestada, piirab ta samas arhiivile juurdepääsu. Tulevikus on kogu arhiivi (välja arvatud üks kohtu poolt piiratud lehekülg) võimalik uurida vaid mõnest raamatukogus olevatest arvutitest.
Aga ka neis arvutites on veebisaitide omanikel õigus paluda juurdepääsu piirata. Kohtuotsuse või andmekaitse inspektsiooni ettekirjutuse alusel suletud saite arhiivist ei kustutata – neile pääseb ligi vaid eriloaga.
Retke ajas saab teha aga maailma interneti arhiivis, mis on salvestanud 1999. aastast ka näiteks Postimehe lehe.
"Postimehe" veebilehekülg 23. veebruaril 1999. Autor: Internet Archive/kuvatõmmis
Kuidas valitakse need teemad, mis võiksid uurijate jaoks olulised olla? Laulupidudele ja spordisündmustele lisaks valib mäluasutuste nõukogu välja algaval aastal tähtsad teemad, millele veebiarhiveerijad eraldi tähelepanu pööravad. Need võivad olla lehed, mis on millegi poolest märgilised või kurioossed või lihtsalt tulevikus uurijatele huvitavad. 2018. aasta teemasid pole veel välja valitud, sest arhiveerijatel on palju veel tegemist eelmise aasta teemadega, näiteks eesistumise ja haldusreformi arutelude salvestamisega.
Peale eespool mainitud enesestmõistetavalt oluliste materjalide talletab rahvusraamatukogu ka muu hulgas näiteks Malluka ja Palja Porgandi blogi.
"Arhiveerime mõlemaid, kuna ka nn mikroajalugu võib olla tuleviku uurijatele huvitav. Räägivad ju mõlemad teatud mõttes Eesti elu argipäevast ning see, et mõlemad on suure populaarsuse saavutanud, lubab oletada, et seal võib ka tulevikus huvilistele midagi põnevat olla," ütles Artus. "See võib olla ka miski, mida me täna veel ei tea."
Malluka blogi peab Mariann Treimann, kes sõnas ERR-ile, et ei teadnud oma blogi salvestamisest, kuid et see tekitab uhke tunde. Tema jaoks ongi blogi pidamine miski, mis annab võimaluse tema praegust mõttemaailma tulevaste pereliikmete jaoks salvestada.
"See on suur osa sellest, miks ma blogin et kui kunagi mind ei ole, siis mu lapsed saavad ikka mind selle kümne aastase "veebipäeviku" kaudu tundma õppida ja mäletada."
Millist huvi võiks Malluka blogi Mariann Tremanni arvates aga mitmesaja aasta pärast ajaloolastele pakkuda? "Ma loodan, et see näitab seda, et internet saab inimesi ühendada ja tekitada nn virtuaalse sõprusringkonna," arvas Treimann.
Kas sellist Delfit mäletate? 2000. aasta 2. märtsil oli esiuudis vendade Voitkade intervjuust.
Delfi esikülg aastal 2000 Autor: Internet Archive/kuvatõmmis
Paljud arhiveeritavad alles ootel
Samas näiteks ei arhiveeri rahvusraamatukogu veel 2016. aastal keeleteo auhinna võitnud Keiti Vilmsi säutse. Siiski, Vilmsi pole unustatud. Vilms on üks paljudest kultuuriinimestest ja avaliku elu tegelastest rahvusraamatukogu nimekirjas, kelle avalikku veebielu õige pea samuti salvestama hakatakse. Praegu pole tema avaliku veebielu talletamiseni lihtsalt veel jõutud.
Sotsiaalmeediast arhiveerib rahvusraamatukogu avalikult kättesaadavaid tuntud isikute, näiteks poliitikute postitusi. Just sotsiaalmeedia ongi Artuse sõnul üks väljakutseid digisisu talletamisel. Võrreldes staatiliste veebilehtedega on seda keeruline arhiveerida. "Loomulikult ka veebimeistrite uuenduslike ideedega kaasaskäimine ja veebisisu esitamine arhiivis, nagu see kunagi veebis paistis."
Artus arutles ka, et Eesti kultuuri ja inimeste mõttemaailma salvestamisele mõeldes oleks oluline jäädvustada ka veebikommentaarides toimuv. See ei ole veel aga tehniliselt võimalik.
Ikkagi – kellele ja milleks?
Omaette küsimus on, kuivõrd mõistlik on üritada kogu veebisisu n-ö purki panna ja püüda talletada kõike, mida inimesed veebis loovad. "Kõike me ei talleta, kuid tänapäeval ei saa enam mööda vaadata faktist, et suur osa suhtlusest ja infovahetusest toimub veebis," rääkis Artus.
Kui jätta see arhiveerimata, siis on Artuse sõnul tulevikus uurijatel väga raske välja selgitada, kuidas nt üks või teine protsess alguse sai, millised olid osapooled ja nende argumendid. Näiteks salvestavad mitmed suured USA firmad ka ise veebilehti, mis nende hinnangul võivad edaspidi kohtuvaidlustes olulisteks tõenditeks saada: mis siis ikkagi kasutajatingimustes lehel kirjas oli?
Eestis arhiveeritakse veebi alates 2006. aastast, vanemast ajast leiab arhiivmaterjale Internet Archive’ist. Kuigi internetisisu tootmise tippaeg on just praegu, kahetsevad veebiarhivaarid siiski, et meil ei talletatud veebisisu põhjalikumalt juba enne seda. "Näiteks oleks saanud hiljem vaadata, kuidas me pronksiööni välja jõudsime, millised olid pealkirjad ja ajalehtede esiküljed," arutles rahvusraamatukogu veebiarhiveerimise rakenduste administraator Peeter Rahuvarm.
Nii nagu muude arhiividega, on ka veebiarhiivil suurim väärtus nii praeguste kui ka tulevaste ühiskonnauurijate jaoks. Olgu need USA presidendivalimised või Araabia kevade sündmused, just sotsiaalmeedias avaldatud meelsus aitab mõista sündmuste kulmineerumist. Seda aga ikka tagantjärele.
"Liblika tiivalöök võib põhjustada tormi, aga kunagi ei tea, millise liblika ja milline tiivalöök," meenutas Artus levinud ütlust.
Pilk eestikeelse sotsiaalmeedia algusaegadesse: tutvumisportaali Rate.ee avakülg 2002. aasta 21. novembril.
Rate.ee esikülg aastal 2002 Autor: Internet Archive/kuvatõmmis
Toimetaja: Greete Palmiste, Merit Maarits