Sten Saluveer: riigid peavad mõistma, et tehisaruga tuleb tegeleda

Seekord on kultuuriportaali intervjuusarja "ID" külaline audiovisuaalvaldkonnas tegutsev innovatsioonistrateeg Sten-Kristjan Saluveer, kes rõhutas, et tehisaru ei peaks kartma.
Saluveer, kes jagab end mitme riigi vahel, teeb Tokyo Ülikoolis doktorikraadi interdistsiplinaarsete uuringute alal. Ühtlasi aitab ta korraldada Cannes'i festivali filmituru innovatsiooni poolt. Muusikas on ta tegutsenud produtsendi ja DJ-na, töötades nii tantsumuusika, poproki kui ka klassika valdkonnas.
Tehisaru on selle aasta mõiste ja sõna, Sten Saluveer, sa oled sellega tegelenud nii visionäärina kui ka praktikuna. Kui veidi ajas tagasi mõelda, siis kasutame ju tehisaru kõik, kel on nutitelefon, olgu see Android või IOS, kel on sotsiaalmeediakonto ja Netflixi või Spotify tellimus. Seda arvesse võttes võis ka oodata, et mingi murrang tehsiaru juures tuleb, aga et see läheb avatud koodile, mis areneb iga tunniga (tehisaru ju ei maga), talle söödetakse kusagilt maailma otsast ikka mingisuguseid tekste, pilte, infot sisse ja ta töötleb seda. Aasta lõpu seisuga võib kindlalt öelda, et tema teab meist rohkem kui meie temast?
Jah, see aasta on olnud väga eriline. Sõnaraamat Collins valis tehisaru (AI) aasta sõnaks, me näeme seda, et OpenAI, mida teame kui ChatGPT platvormi loojat, on aastaga teinud enneolematu kasvu. Kui me aasta tagasi oleks võibolla rääkinud sellest, et meil on tööriist, mida sada miljonit inimest kasutab, mis hakkab põhimõtteliselt muutma seda, kuidas me õpime, töötame, analüüsime, kultuuri loome, siis see kõik on olnud väga tempokas.
Nüüd saame rääkida juba filmikatsetustest, mida võisime näha Veneetsia filmifestivalil, filmitegijatele suunatud AI-platvormidest. Täiesti ootamatult on välja tulnud plejaad tööriistu, mida saab kasutada heli ja pildi puhastamiseks – see plahvatus on olnud hästi suur. Ja see pole olnud ootamatu. Nagu sa ütlesid, siis oleme selliste tööriistade suunas jõudsalt liikunud.
Kui mõtleme selle peale, et esimesed tugevamad teadustööd või mõtted tehisaru ümber toimusid 1960. ja 1980. aastatel, kus loodi esimesed vundamendimudelid või arusaamised, millega peaksime üldse tegelema, siis see plahvatuslik areng on olnud kombinatsioon erinevatest elementidest. Üks neist on see, et meil on nüüd juurdepääs tohututele andmekogudele, lisaks veel 10+ aastat hüperinternetti, sotsiaalmeediat. Teiseks see, et meil on suurenenud arvutite jõudlus, mis suudab luua seoseid ja lahendada tehisarule antud ülesandeid. Kolmas aspekt on see, et turule tekivad ka kasutusviisid ja ärivõimalused, mis seda protsessi katalüseerivad.
Aga huvitav on jah see, nagu sa märkisid, et tehisaruga oleme koos elanud, on see siis Siri või Google'i kaudu, me broneerime oma majutust Air BnB-s, kuulame muusikat Spotifyst, sotsiaalmeedia kureerib juba meie valikuid, samuti ka voogedastusplatvormidel, kõik need tööriistad on olnud meie juures juba piisavalt kaua. Selle aasta muutus seisneb selles, et need tööriistad on muutunud generatiivseks ehk siis nad hakkavad tegelema "loomega". See tähendab, et nad suudavad juba luua inimese sarnaselt, mitte veel temast eristamatult. Seda praegu teksti ja kujundite valdkonnas.
Sellega kaasneb ka see, millega ChatGPT või OpenAI hakkama said – tekkis võimalus suhelda selle tehisaruga meie loomulikus keeles, milleks praegu on eelkõige inglise keel. See teebki tehisaru või krati ja inimese suhtluse väga lihtsaks. Ja selge on ka see, et sealt tagasiteed selle maailma juurde, kus neid tööriistu polnud, kindlasti ei ole.
Igasuguste muudatustega kaasnevad hirmud: millised need ohud on? Kui tehisaru hakkab meie eest valikuid tegema, olemegi andnud end ära, oleme loovutanud vabatahtlikult oma vaba otsustusõiguse.
Jah, mõtlesin eile samade asjade peale. Siin tuleb eristada mitut tasandit. Esiteks, tuleb teha selgeks, millisest tehisarust me räägime. Kui räägime suurtest keelemudelitest nagu ChatGPT, siis tähendab see suuri tekstikogumeid, mida saab keele protsessimise baasil seirata. Seda mudelit võib võrrelda tuhande assistendiga, kes suudavad raamatukogu ülehelikiirusel läbi töötada ja tuvastada keelel baseeruvaid süvastruktuure, mida oleme seni teinud hoopis madalamal jõudlusel.
Kas siin polegi see vahe, et meie saame teha seda kvalitatiivselt, tema aga kvantitatiivselt?
Sellele küsimusele me veel ei oska vastata ja selleni tahan ka jõuda. See, millest rääkisime, on üks variant, peale selle on veel väga selgelt piiratud kasutusviisiga intellektivormid nagu kureerivad algoritmid. Näiteks võib võtta kasvõi Jupiteri, kus praegu on sisu veel hallatav, kuid kui see aastatega kasvab, siis selleks, et teha see inimestele kättesaadavamaks ja lihtsamini haaratavamaks, on seal piiratud kasutusviisiga algoritm, mis annab inimestele teatud parameetrite järgi valikuid. Või on näiteks mingid pildituvastusmasinad arhiivides jne.
Kus aga hirmud tekivad, on valdkond, millel on ingliskeelne termin general purpose AI (üldkasutus tehisaru) – see suudab tugevalt imiteerida inimest kõikides protsessides, suudab ise vastu võtta otsuseid, esitada ise endale ülesandeid jne. Stanley Kubrick käsitles seda koos Arthur C. Clarke'iga valminud filmis "Kosmoseodüsseia 2001". Selle üle, kas ja millal me sellise "üldkasutus tehisaru" juurde jõuame, on vaieldud juba aastaid. Max Tegmark on kirjutanud väga huvitava raamatu "Life 3.0" (2017. Eesti keeles Postimehe kirjastuselt, 2020. tõlkinud Andreas Ardus), kus seda protsessi üksikasjalikult lahti seletab. Aga ei tema ega ka keegi teine ekspert ei suuda seda horisonti või piirjoont selgelt määratleda. Esiteks, kas on meil seda üldse vaja ja teiseks, kas seda on üldse võimalik luua.
Tulles aga nüüd sinu poolt siia toodud tondi juurde tagasi, siis jah, need olemasolevad mudelid näiliselt suudavad inimese mingeid tegevusi imiteerida, aga kindlasti ei ole nad niivõrd loovad ja ei suuda inimese abita endale ülesandeid püstitada. Küsimus ongi selles, millist koostööd me filosoofiliselt sellelt kratilt tahame. Nagu näitavad mitmed eksperimendid, pole need kratid ise nii väga võimekad, kratiaru läheb küll mingit ülesannet lahendama, aga väga tihti ei saa ta aru kontekstist ja hakkab pigem hallutsineerima – tekitama väiteid, mis ei vasta inimese loogikale. Teisisõnu see, et see kratt efektiivselt töötaks ja suudaks luua midagi meile tähenduslikku, on vaja veel inimest.
Hirme on aga ka teemaga, mida saab sildistada pealkirjaga "seletatavus" (explainability). Praegu me põhimõtteliselt teame, kuidas need tehisaru keelemudelid toimivad, mis on nende töötamise alus, kuidas nad on ehitatud, aga seda, mis toimub protsessi sees, me väga hästi ei tea. Ehk siis, kui anda ülesanne kirjutada lühistsenaarium uuele Eesti mängufilmile mingite parameetrite alusel, siis ma olen kindel, et ta mingi aja pärast ka selle tulemuseni jõuab. Aga kuidas see täpselt käib, miks eelistab ta üht või teist faabulat või keelestruktuuri, seda ma päris hästi ei tea, kui ma seda käsku ei piiritle. See tekitab hirmu legaalselt ja ka loovisikute vaatest lähtuvalt.
Legaalne küsimus selle "seletatavuse" puhul on see, et kogu me praegune kultuuri rahastus- ja opereerimissüsteem põhineb autorlusel. Ehk teisisõnu, kui sina teed minuga intervjuu, siis see autoriõigus kuulub sinule. Ja kogu see kultuuri- ja loovprotsess käibki selle läbi, et teame, et on olemas autor.
Oleks pidanud vist laskma AI-l sind intervjueerida.
Jaa, see oleks võinud ka päris põnev olla (naerab), aga seda hetke võibolla ei tulegi. Autorluse puhul on aga oluline see, et see peab olema tõestatav. Kuna me praegu ei tea, kuidas see masin oma tulemuseni jõuab, on väga raske tõestada seda, mis see autorlus on. Tänavu kevadel puhkes ka skandaal tuntud fotopanga Getty vesimärgistatud kujutiste kasutamise ümber – tekkis küsimus, kas tegu oli nende lubamatu kasutamisega.

Kevadel oli skandaal ka Sony fotoauhindade kätteandmisel, kui peaauhinna saanud fotokunstnik Boris Eldagsen teatas, et ta tegi auhinnapildi AI toel, mispeale otsustas Sony auhinna tagasi võtta.
Siin ongi kaks taset: esiteks see, et meil pole maailmas pretsedenti, kuidas sellise olukorraga toime tulla, ehk siis, kui AI ise midagi genereerib, kas ta on siis autor või mitte. USA ülemkohus on praegu seisukohal, et ei ole. Samas pole vastust küsimusele, kuidas suhtuda olukorda, kui inimene ja kratt koos midagi genereerivad. Inimene ju suunab seda kratti, annab talle ülesande ja sealt tuleb mingi uus taies. Kellele kuulub autorlus sellisel juhul? Kas inimesele, inimesele ja kratile või siis kolmanda võimalusena ainult kratile. Selle üle praegu vaidleme ja see paneb ka kogu loovtööstusele ka väga suure piduri. See on väga selge probleem, mida keegi pole veel lahendanud ja see on ka see, millele hakkame otsima ühiskondlikku kokkulepet.
Ja siin on ka filosoofiline küsimus: kas ja millisel hetkel on meil õigustatud ootus mingi tööriista või vahendi suhtes, et kuidas ta töötab ja mida ta teeb? Toon siia ühe näite – kui mind keegi filmiks televisioonis, siis milline vajadus on mul mõista, kuidas see mu kujutis sinna kaamerasse läheb ja mida ta seal teeb. Mul isiklikult ei ole sellega probleemi, kui ma saan aru, et seda kaamerat kasutatakse seal heaperemehelikult ja eetiliselt selleks, milleks ta on ette nähutud ja ta ei ohusta kellegi isikuandmeid. Ma kipun kalduma selle poole, et kui meil on mingid ühiskondlikud väärtuskokkulepped, siis minu jaoks see ei ole niivõrd oluline.
Selles AI maratonis on selge ka see, et inimesed, kes ei oska või ei taha neid tööriistu kasutada, siis ega need tulemused ei ole ka väga loovalt ohustavad. Sa ikkagi vajad teatud sorti haritust või haridust või eesmärgistatust. See, et ma peaksin nüüd teadma, kuidas see algoritm töötab, pole mulle isiklikult oluline.
Peale autorluse küsimuse on siin aga veel üks suur probleem, mille üle meil peaks olema õigustatud kartused. Nimelt teame, et need tööriistad on kohtuvalt kallutatud. Algoritm on ainult nii hea, kui on see materjal, mis sinna sisse läheb. Väga paljude olemasolevate tööriistade puhul on see, et kui hakata neid promptima ehk neile käske andma, saame aru, et nad on küllaltki rassistlikud, peegeldavad n-ö transatlantilist ingliskeelset keeleruumi ja selles levinud stereotüüpseid meedia- , keha-, rassi- ja muid selliseid kuvandeid. Väga paljud eksperimendid, mida on tehtud erinevate keelemudelitega, on näidanud, et need mudelid hakkavad nagu hulluks minema. Ehk teisisõnu, nad muutuvad vägivaldseks, hakkavad käituma agressiivselt jne. Seda märgib ka üks kevadine vahejuhtum New York Timesi ajakirjanikuga, kes pidas kratiga vestlust. Algul kratt justkui armus sellesse ajakirjanikku ja siis muutus vägivaldseks. Selliseid juhtumeid on olnud teisigi.
See tõstatab minu jaoks kolm küsimust. Esiteks: kas see vägivaldsus tekib andmekogudest? Väga selge on see, et eesti kultuur pole neis ülemaailmsetes kogudes just väga hästi esindatud. Kui sa ei ole mees, valgenahaline, ingliskeelne, heteroseksuaal ja muud sellised stereotüüpsed kuvandid, siis need mudelid ei suhtle päris tihti sinu reaalsusega. Võib öelda, et 99 protsenti maailmast need mudelid ei kata. See tekitab selles suhtes probleemi, et kui selle mudeli peal toodetakse uut materjali, siis see materjal võimendab enneolematul viisil neid stereotüüpseid olukordi. Seda me ju ei taha, pigem vajame ühtlasemat pilti.
Teine teema andmekogude kõrval on see, et kratid peegeldavad algoritmide kirjutajaid, kes tulevad näiteks kusagilt Silicon Valleyst. Nende hoiakuid ja seda on ka uuritud, et isegi programmeerimiskeel on kallutatud.
Ja kolmas küsimus, mis on võibolla isegi filosoofilisem, on see, et kas ei peegelda see kõik mitte inimese mõtlemise süvastruktuure, mida me oma kultuuri või väärtusruumiga üritame koos hoida. Need ohud tekivad peamiselt sellest, et need mudelid on kallutatud, nad ei edasta reaalset pilti ja kuna me ei tea, mis seal sees toimub, on väga lihtne tegelda ka identiteedivarguste, deep-fake'ide ja selliste asjadega, mida me veel ei suuda tööriistastada. See võlu ja valu tulebki sellest, mis on kellegi enda moraalne kompass.
Eks siis seesama sisemine väärtuskompass ongi nn anti-AI või siis see tööriist, millega saab kindlaks teha, et asi pole õige?
Jah. Aga me ei saa rääkida praegu sellest, et kas ja millal me hakkame neid nn antitööriistu kasutama, sest see rong on läinud ja me alles hakkame aru saama, mis on see kasutegur. Kui võtta, et sellest nn suurest paugust on aasta aega möödas, siis juba selle ajaga on toimunud märgatav demokratiseerumine.
Kuna olen selles valdkonnas paarkümmend aastat töötanud, võin öelda, et see, mis on praegu saavutatud, on erakordne. Näiteks võid võtta helifaili, mille hea sisu oleks aastaid tagasi olnud kasutu, kuna sel on mingi müra taga, sa lased selle mingisse tööriista, mis on turul kasvõi kümne dollari eest saadaval, ja see heli on puhastatud ning kasutatav.
Või võtame pilditaastamised või andmeanalüüsi, mida pahatihti kultuurivaldkonnas on vaja teha, aga mis on väga komplitseeritud. Kultuuritöötajal peaks olema võimekus esitada küsimusi ja teha otsuseid, aga ta ei pea andmeid analüüsima. See, et võime 20 dollari eest osta ChatGPT plaani, panna sinna sisse suure andmekogu, hakata talle esitama küsimusi, nagu me omavahel räägiks juttu, sealt tulevad tulemused – see potentsiaal, mida ta meile aja kokkuhoiu mõttes avab, on erakordne.
Aga loomulikult hakkab ta ka mõjutama igasuguseid tööhõive ja muid strukturaalseid küsimusi. Kas nüüd hakata seda sellepärast ära keelama? Seda me ei saa. See oleks ühiskonna tsenseerimine. Varasemad kogemused näitavad ka seda, et kui need tööriistad on niivõrd paeluvad, kasutataks neid nagunii. Hea näide on kasvõi Netflix. Kui seda veel Eestis ei olnud, siis vaadati seda VPN-iga, sest huvi oli nii suur. Itaalias keelati ChatGPT ära, oli mõned kuud keelu all, siis avati taas, sest kõik nagunii kasutasid.
Tehisaru kasutamine nõuaks riiklikku valmisolekut, mille eelduseks on teatud kokkulepped.
Muidugi. Lõppev aasta on olnud riikidele ja avalikele asutustele ka see tärmin, mil nad mõistavad, et peavad tehisaruga tegelema. Euroopa Komisjon annab oma soovitused, Valge Maja tegi seda, Londonis toimus lai rahvusvahelisel tasemel tippspetsialistide arutelu. Selge, et valdkond areneb sedavõrd kiiresti, et ükski regulaator ei suuda seda enam reguleerida. Kui reguleerima hakkad, on rong juba ära sõitnud. Eestis on praegu suures pildis väga hästi, digivundament on heades kätes, meil on selleks asekantsler Luukas Ilves, kes selle kõigega tegeleb ja krativõimekuse loomine inimeste abistamiseks riigiga suhtlemisel on töös.
Seda toetab ka Eesti inimeste usaldus riigi ja siinsete institutsioonide vastu. Millest mul on aga väga kahju, on see, et Eestis on tohutu lõhe selle nn pehme valdkonna, sinna hulka ei käi ainult kultuur, digivõimekuse ja üldise digivõimekuse vahel. Digiteerimisest ja digitaliseerimisest hakati kultuuriministeeriumis rääkima juba aastal 1996, siiani aga vaidleme selle üle, kas mingid rahvuslikud kultuuriväärtused võiksid olla digitaalsel kujul saadaval. Rääkimata laialdasemast võimest aru saada, mida tähendavad digiprotsessid, algoritmid, platvormid jne. Kultuurivaldkond on seda ilmselt teadmatuse tõttu ignoreerinud, aga nüüd oleme olukorras, kus riigi üldine digitaalne plaan ning loovuse ja kultuuriga seotud valdkond ongi üks. See, mida ChatGPT utreeritult tegi, oligi see, et kukutas selle kõik ühte patta.
Nüüdne väljakutse on selles, kui kiiresti seda lõhet suudetakse ületada ja kui ruttu suudetakse luua võimekus, et neist protsessidest kasvõi minimaalselt aru saada. Näiteks PÖFF-i ajal toimus ka innovatsioonifoorum, mida kureerisin, kus Taani produtsent Mads Damsbo rääkis, et Euroopa filmiinstitutsioonid seisavad silmitsi olukorraga, kus neile saadetakse treatment'e või script'e (filmiprojekte, stsenaariumikavandeid), mis on tehisaru abil kirjutatud.
Ja seda on ka ausalt öeldud?
Jah. Küsimus on aga selles, kuidas see toetuseandja peaks tegutsema. Kas sulgeda või oodata väga head, geniaalset tulemust. Siinjuures tuleb arvestada ka sellega, et vaja on selgust autorikaitses ja need tööriistad hakkavad mõjutama ka tööturgu. Kui otsustatakse, et AI kasutamise eest ei maksta, ei kuulu see ka tasustamisele, see aga vähendab sissetulekuid. Ehk siis, viimane aeg on teha endale selgeks, millises maailmas tahame elada. Kas suudame kohandada ka kultuuripoliitikat nii, et see arvestaks suuremate muutustega või hakkame kapselduma. Minu seisukoht on, et peaksime siiski kohanduma praeguse olukorraga.

Paistab, et tehisaru ongi mingitesse raamidesse minemas, sa kasutad seda siiski suuremate andmekogude töötlemisel, bürokraatlikuma loomuga tööde juures. Väärtust sellega luua ei saa. See väärtus tekib inimese peas.
Ma pigem vaidleks sulle vastu. Hollywoodi stsenaristid, näitlejad ja kogu sealne filmitööstus oli mitu kuud streigis. See kirjeldas suures osas ka nn Zeitgeisti või olukorda turul. Üks oluline aspekt oli seal AI tööriistade kasutamine. Kokkulepped, mida saavutati, olid üsna mõistlikud. Mida võideti oli see, et kui statist või näitleja saab võtteplatsile, siis teda ei saa kloonida tema nõusolekuta, millega olen ka 100 protsenti nõus, sest seal on ka mitmeid identiteediga seotud küsimusi: kui inimest on juba võimalik digitaalselt kloonida, siis kes hoiab neid andmeid, kuidas ja kaua neid salvestatakse jne.
Mis puudutab aga väärtusküsimust, siis ega need stuudiod poleks hakanud esitama selliseid nõudmisi, kui nad ei teaks, et seda väärtust luuakse. Võin kindlalt öelda, et kõigis stuudiotes on generatiivsed tööriistad olemas. See, mida Ed Staachi suvel näitas, skandaalse South Parki episoodi, mis oli täiesti AI genereeritud, siis võib öelda, et sellise igaõhtuse standardse sitcom'i genereerimine, mida kõik vaataksid ja see tunduks ka huvitav, pole väga keeruline ülesanne. See, et meil pole multimodaalseid tööriistu (annad käsu ja teeb kõik valmis) ei tähenda veel midagi, me pole sealt väga kaugel. Ehk siis, stuudiotes on tööriistad olemas, Amazon ja teised suured platvormid on ausalt öelnud, et esimene koht, kus hakatakse neid kasutama, on reklaam. Kui kiirus ja võimekus kasvab, hakkame nägema sarju, mis on täisgenereeritud.
On ju praegugi Youtube'is võimalik leida mingi režissööri kunstilises võtmes genereeritud mash-up'e. Õnneks veel lõikudena.
Absoluutselt. Mis tähendab seda, et sisumaht kasvab plahvatuslikult. Selle valu on aga selles, et kui ühes minutis upload'itakse Youtube'i 500 tundi materjali, kasvab ka AI-le kättesaadava audiovisuaalse info maht. Kui võtta sinna juurde see väärtuse mõiste, siis see tekitab hoopis uue olukorra. Kultuuritootmine muutub intellektuaalomandi põhiseks, nö universumipõhiseks, kus mina kui vaataja hakkangi suhtlema mingi sisuuniversumiga, on see siis Star Wars, Marvel või kasvõi Andrus Kivirähu universum. Annan soovi, et tahan vaadata mingit episoodi "Mehest, kes teadis ussisõnu" ja mingi aja pärast ma ka selle saan. See on juba üsna reaalne. Kas selline olukord on meil juba kahe aasta pärast või hiljem, on ise küsimus, aga see tuleb.
Selline sisu plahvatuslik kasv paneb jällegi kõrgendatud nõudmised loovisikutele. Loovisikute ainuke võimalus ongi arendada või võimendada oma loovoskusi, et tekiks need väga paeluvad narratiivsed universumid. Stuudiod hakkavad väga selgelt replikeerima seda intellektuaalomandit, mis neil on, ja küsimus ongi selles, kus tekiks see uudsus.
See tähendaks ka selle universumi loonud autorite tõusvat tasustamist, mis viib meid tagasi autorsuse ja intellektuaalomandi reeglistiku juurde.
Ja see ongi see suur küsimus, kus me peaksime kiiresti jõudma mingi globaalse ühiskondliku kokkuleppeni. Teema, mis oli kaalukausil ka selles stuudiovaidluses, oli see, et kui kratt kirjutab stsenaariumi olemasoleva info baasil ja stsenarist läheb seda parandama, kas talle tekivad autoriõigused. Praegusel juhul ta neid ei saa.
Oled olnud tegev ka Cannes'i filmituru juures. Milline on sealne poliitika?
Ma ei saa rääkida kogu festivali nimel, saan öelda laiemal tasandil, et Cannes on alati toetanud loovat innovatsiooni. Pahatihti on võistlusprogrammides aga linastunud filmid, mis ühel või teisel viisil nihutavad või laiendavad meie kultuurilise ja tehnoloogilise arusaama piire. Võtame lähiminevikust kasvõi Lars Von Trieri või Caspar Noé, David Cronenbergi või Julia Ducournau filmi "Titane" (2021) – need on olnud filmid, mis on mitte ainult tehniliselt teostuselt, vaid ka kultuuriliselt mõjujõult põhjustanud kultuurilisi muutusi.
Töötades Cannes'i filmituru innovatsiooniprogrammi juhina võin öelda, et oleme muutustele väga avatud. Oleme alati öelnud, et Cannes on platvorm, mille eesmärk on tutvustada kõikvõimalike tööriistade võimekusi, mis võimaldaksid paremaid filme toota ja tööstusel areneda. Tehisaru küsimuse võtsime fookusse juba läinud aastal, minu seisukohalt on kratt nagu kaamera. Seda olukorda võib võrrelda filmikaamera algusaegadega, mil alles õpiti tundma uue tööriista võimekust – meil on veel teatud tehnilised piirangud, me ei suuda toota rohkem kui neli-viis sekundit seda materjali.
Meil on kahte sorti vastutust: esimene on see, et peame hoidma seda valdkonda kursis, arvestades selle platvormi suurust, et need muutused ei tuleks ootamatult. Teine vastutus seostub sellega, et see, mida me kureerime, oleks kvaliteetne, ohutu ja väärtust loov. Kui mõni aasta tagasi oli blockchain'i buum, neid ettevõtteid tuli tohutult, sellele järgnes krüptoplahvatus, eelmised kukkusid ära. Minu töö seisnebki selles, et valin väga hoolikalt välja need tegijad, kes annavad sellele valdkonnale midagi ja peavad oma sõnast kinni.
PÖFF-i ajal ütlesid ka, et järgmisel aastal võib Tallinnas näha mitut AI abil valminud filmi. Rain Rannu on AI abi juba kasutanud, näiteks "Lapsmasina" (2022) dialoogide loomisel. Kui aga mõelda sellele, kuidas on AI-d tööriistana kasutatud, näiteks auto-tune popmuusikas, see tekitas teatud elevuse valdkonnas, kuid toode ise oli võõristav, ei tekitanud mingit emotsionaalset sidet, pigem süvendas distantsi kui ligi tõmbas. Tehisreaalsus siiski ei köida.
Siin tuleb sisse termin, mida nimetame uncanny valley. See ilmneb siis, kui suhtled arvuti poolt loodud virtuaalreaalsuse või avatariga.
James Cameron on loonud ju ka juba kaks "Avatari" filmi, mis on puhtalt arvuti genereeritud maailmas, aga kellele need meeldivad?
Nojah, kas meeldib või mitte, on inimeste endi otsustada, aga küsimus on selles, et need tööriistad ei suuda veel lõputult hästi simuleerida inimsust. Seal on palju füüsilisi faktoreid, keha mikrodünaamika jne. Küll aga on see revolutsioon tugevalt toimunud just heli valdkonnas. Eelmisel aastal legendaarne ameerika teatri- ja filminäitleja James Earl Jones, keda tuntakse peamiselt Darth Vaderi häälena, andis oma hääle õigused Lucas Filmile, seega tema hääl luuakse tulevaste "Tähesõdade" osade jaoks sünteetiliselt. Nüüd tuli ka uudis Warner Bros-ilt, kes hakkab väntama eluloofilmi Edith Piafist, kus ta hääl luuakse sünteetiliselt. Need on põnevad lahendused, sest võimaldavad teha omalaadseid kultuuriavastusi "mis oleks kui". Ma hea meelega peaks dialoogi mõne enda superkangelasega, näiteks Andrei Tarkovskiga. Tehnoloogiliselt on see võimalik.
Aga selliste kogemuste loomine tähendab siiski kümnete inimeste tööd ja väga nüansirikast tööd ja võibolla ei eristugi mõne kunstniku tööst, kes kaua aega filigraanselt mingit taiest loob. Suurte keeletööriistade puhul on küsimus siiski eelkõige leksikas ja semantikas. Me näeme, et lihtsamate tekstide ja ülesannete puhul tekibki selline auto-tune'i fenomen, kus on palju volüümi, aga see volüüm on hästi standardiseeritud ja väga vähe nüansirikas. Ma arvan, et kultuuripubliku suureks väljakutseks ongi see, et kuidas leida neid tekstuuriliselt põnevaid teoseid ja taieseid, mis ka kuidagi puudutavad. Ehk siis, me hakkame otsima neid nii-öelda juhuslikkusi.
Just. See, mida me kultuurilt ootame, on saada uut teadmist inimese ja maailma kohta. Mitte pelgalt peegeldust.
Absoluutselt. Uudsus ja juhuslikkus on need võtmeterminid. Poolteist aastat tagasi kirjutasin Vikerkaarde artikli audiovisuaalvaldkonna tulevikust. Toona tegin kõhutunde baasilt prognoosi, et meil hakkab tekkima nn meta-audiovisuaalsus, mis tähendabki, et ta on hästi standardiseeritud, IT-põhine, kommertslik, globaalne ja seda toetavad erinevad tehnoloogiad.
Sisuliselt liigume mingi teatud sorti suurema konvergentsi suunas, kus kogu audiovisuaalsus – mäng, kino, heli – koondub ja see hakkab moodustama väga suurt osa meie tarberuumist. See ei tähenda, et kõik muu kaob. Ma ei oska sellele olukorrale anda praegu mingisugust hinnangut, võibolla pole see üldse halb.

Sa ise oled kaua tegelenud muusikaga, peamiselt tantsumuusikaga. Kas lubaksid tehisarul enda eest tantsumuusikat kirjutada?
Ma kasutan neid tööriistu iga päev. Mõni aeg tagasi tekkis ka kiusatus oma häält kloonida, toimus ka üks konverents, kus oleksin saanud seda katsetada platvormil Eleven Labs aga põrkusin tagasi mõttelt, et kui teed seda hästi, ongi tulemuseks su enda digitaalne kaksik ehk digi-Sten, kes võimaldaks teha asju, mida ma tahaksin teha, aga mille jaoks päevas aega ei leia.
Tavaliselt ma selliste tööriistade puhul hirmu ei tunne aga Eleven Labsi puhul, kus tööriist suudab su poolt antud 5-10 sekundilise näite puhul häält kloonida, tekkis mul kartus, et kui annad oma hääle ära ja sa ei tea, mis sellest hiljem saab, ja seal puudub ka valideeritud identifitseerimisprotseduur, siis kokkuvõttes võikski keegi teine seda intervjuud siin minu eest praegu anda. Kui ma oleksin kindel, et see kõik on seal parimal viisil turvatud, siis mul kahtlusi poleks.
Katsetan praegu kirjutamisklooniga, mis kirjutaks nii nagu mina. Loomulikult pean teda instrueerima ja andma talle mingeid parameetreid. Muusikavaldkonnas tulid need generatiivsed tööriistad üsna kiiresti sisse, alles oli skandaal Drake'i hääle kloonimisega. Selle plusspool on see, et tehisaru võimaldab loomingu juurde tulla ka neil, kel on alati olnud mingid strukturaalsed barjäärid. Näiteks, kui kunagi astusin muusikakooli, siis mind ei tahetud vastu võtta, kuna öeldi, et olen hästi ebamusikaalne. Ma ise seda ei tunne, aga see otsus võeti vastu mingite standardite järgi. Kas ma neile vastasin või mitte, jäägu nende otsustada, igatahes selle kooli ma ära lõpetasin ja mitte ka kõige halvemini. Selle plusspoole juures tuleb esile tuua ka seda, et kultuuris olek, tegelemine muusika või ükskõik millise valdkonnaga muutub aina olulisemaks, sest loovus on üks kõige olulisemaid ressursse.
Selge on see, et väga paljud inimesed jäävad loovusest eemale igasuguste standardiseeritud protsesside tõttu. Näiteks ei vasta nad mingitele üldistele nõuetele, teine variant on ka rahalised põhjused. Me teame, kui vähe Eestis filme tehakse, muusikavaldkonnal läheb veidi paremini, aga summa summarum on siiski mingid strukturaalsed protsessid, mis siis võimaldavad või ei võimalda inimestele asju teha. Mis aga nende tehnoloogiate puhul oli täiesti uskumatu, on see, et me saame olla ühel tasemel auhindu võitnud filmitegijatega. Tavalistes protsessides oleks välistamisulatus hoopis suurem. Näiteks kui oled araabiamaadest, naine, teise nahavärviga, kehvema rahakotiga jne. Maailm võiks õigete otsuste puhul muutuda palju demokraatlikumaks ja anda enamatele inimestele võimalusi oma lugu rääkida.
Ka PÖFF-il oli näiteks Miguel Faus, kelle film "Vaikne teenijanna" linastus ka debüütide võistluskavas. Hoolimata sellest, et ta oli lõpetanud Londoni filmikooli, tema debüüdi ostis HBO ja ta ei saanud mitu aastat mingit tagasisidet ega ka võimalust teha oma filmi, kuna avalikud rahastajad seda ei rahastanud, kusjuures film ise on päris hea. Me näeme, et need tööriistad suudavad selliseid strukturaalseid takistusi tugevalt lammutada ja see, kui keegi kodus nendega biite genereerib automaatselt ja see võimaldab siseneda muusikavaldkonda, siis minugi poolest. Sest mis saaks olla veel ägedamat sellest, kui inimene leiab oma eneseväljenduse?
Kuid hästi oluline komponent sealjuures on haridus. Nende tööriistadega me peame õppima uut sorti pilli mängima. Seda selleks, et mitte teha ainult neid standardiseeritud asju, vaid ka huvitavaid asju. Muusikaõppe arendamiseks oleks siin näiteks tohutu potentsiaal. Praegugi võimaldavad algoritmid muusikateose tükkideks lammutada – eraldada sealt näiteks vokaal või mõne instrumendi partii. Neid saab kasutada harjutamiseks ja õppimiseks, mängida neid oma tempos järgi, see oleks ju hea võimalus paremini pilli mängima õppida. Selleks aga tuleb muidugi esmalt luua vajalikud tööriistad ja õpetajad võiks neid ka kasutusele võtta. Kui 1960ndatel tekkiski nn uus laine tänu kaasaskantavatele magnetofonidele ja kaameratele, siis oleme praegu umbes samas faasis. Aga meil tuleb aru saada, et see fookus pole mitte tööriistad vaid meie endi haritus.
Minu meelest praegune kõige suurem probleem Eesti kultuuritööstuses ei ole mitte rahapuudus, vaid praeguse olukorra adekvaatne hindamine, tulevikku vaatavate otsuste tegemise oskus. Loomulikult on meil väga kriitilisi ühiskondlikke probleeme, nagu õpetajate ja loovisikute olukord, kuid sellises kiires muutuste maailmas on raha vaid väga lühike lahendus. Meil on vaja kõigepealt seda, et meie otsustajad saaksid aru, mis suures pildis toimub, selle võrra teeks paremaid otsuseid. On vaja tagada fundamentaalsed otsused, et meie valdkonna inimesed saaksid tehisaruga igapäevaselt hakkama. Kolmas küsimus on see, kuidas neid kratte kohandada Eesti kultuuriruumiga. Kui suudame sellega hakkama saada, tekivad ka raha ja vahendid edasiseks. Oskuste puudusel oleme aga üsna kehvas olukorras.
Start on kõigile antud. Kes ees, see mees.
Just, küsimus on selles, et kui keegi naaber need tööriistad kasutusele võtab ja hakkab seetõttu mingit asja meist paremini tegema, siis oleme vaid ise süüdi.

Kultuuriportaali intervjuusari "ID" võtab igal pühapäeval fookusesse ühe huvitava kultuuritegelase ja vaatab koos temaga Eesti kultuurimaastikku.
Toimetaja: Karmen Rebane
Allikas: "ID"