Krister Kruusmaa: tehistaip on kultuurinähtus, mis nõuab selget plaani
Millised ohud tulevad suurte keelemudelite kasutamisest eesti keelele ja kultuurile, kui tehnoloogiahiidude andmestikes on eesti keelt 0,1 protsenti ning mudelite ohutuse tagamisel on silmas peetud vaid inglise keelt, küsis Eesti Rahvusraamatukogu andmeteadlane Krister Kruusmaa arvamusloos.
Tehisintellekti (TI) toodud ärevusesegune vaimustus pole veel vaibuda jõudnud, kuid juba keskendutakse paljudes asutustes sellele, kuidas uue tehnoloogiaga kohaneda. Ilmselt on nii mõnedki samas märganud, et teksti genereerivad tehisintellekti rakendused nagu ChatGPT ei vääri alati kaasas käivat kõmu, kui rakendust kasutada eesti keeles. Eestikeelsed vastused on sagedamini vildakad ja Eesti kohta käivad väited valed. Nii võib tehismõistus jääda hätta Tammsaare teoste tundmisega1 või näiteks südamerahus väita, et Punaarmee "vabastas" Eesti 1944. aastal.
Kui võrdleme ChatGPT laadseid keelemudeleid noaga, siis praegu on see nuga eestlase käes nüri. Eesti keeles ettearvamatult käituv tehistaip suurendab valeinformatsiooni hulka ning võib hakata kujutama ohtu julgeolekule ja sotsiaalsele sidususele. Seni, kuni tehisaru mudelid on loodud peamiselt vaid ingliskeelsete materjalide põhjal ning pole väikekeeltes kvaliteedikontrolli läbinud, ei saa need ka olla kursis eesti kultuuris avaneva maailmapildiga. Kuna nüri noaga ei saa teha head tööd, on ka tehisaru rakendusvõimalused Eestis praeguse seisuga oluliselt piiratud. Eestit ähvardab TI-revolutsioonis mahajäämine ja sellest tulenev majanduslik kahju.
Viimaks satub ohtu eesti kultuuri järjepidevus, sest suutmatus uuendustega kaasas käia on teatavasti väikekeelte jaoks saatuslik hoop. Tehisintellekt on vähemalt sama revolutsiooniline nähtus nagu Gutenbergi trükipress, mis puudutab kõiki valdkondi ja seeläbi inimkonda tervikuna. Ja nii nagu trükikunsti levikuga jäid köögikeelteks oma kirjasõnata keeled, marginaliseeruvad tulevikus need rahvad, kel puudub ligipääs omakeelsele ja oma kultuuri tundvale tehisarule.
Kultuurile rajatud tehnoloogia ka õpetajale
Enne kui asume arutama noa teritamist, tuleb hetkeks peatuda keelemudelite ülesehitusel ja olulisusel. Ehkki enamik inimesi on tehisintellektiga teadlikult kokku puutunud eelkõige läbi vestluse juturobotiga, ei ole see sugugi peamine viis, kuidas tehistaip meie elu mõjutab. Tehisintellekti mudeleid on võimalik liidestada ükskõik millise teise tarkvaraga. Üsna pea on normaalsus, et jagame tolmuimejale häälkäsklusi või peame hommikukohvi kõrval vestlust külmkapiga. Kontoritöötajad saavad juba täna lasta keelemudelil mõnest hiigeldokumendist kiirkokkuvõtte teha. Tehisintellekti on vaja nii paberimajanduse all vaevleval tervishoiusektoril kui ka õpetajatel, kes saaksid säästa kümneid töötunde lihtsamate kodutööde kontrollimise pealt.
Inimeste ja arvutite suhtluse lihtsustumises on seega väga suur potentsiaal, aga ka üks suur "aga". Erinevalt varasematest tehnorevolutsioonidest on tehisintellekt sõna otseses mõttes kultuurile rajatud tehnoloogia. Nii keelemudelite kui pildigeneraatorite treenimiseks kasutatakse inimeste loodud tekste ja kujutisi. Samas ei ole erinevate keelte ja kultuuride osakaal tehisaru mudelite algandmestikes kaugeltki võrdne. Näiteks moodustab ChatGPT aluseks olevate mudelite treeningandmetest ligi poole inglise keel, samas kui eesti keele osatähtsus on veidi üle 0,1 protsenti.2 Eesti keele esindatusest keelemudelites ei sõltu mitte ainult see, kas külmkapp teab Juku-anekdoote, vaid ka see, kas arst peab oma töö lihtsustamiseks lülitama inglise keelele või kas uued digitaalsed õpikeskkonnad on Eesti klassiruumides üleüldse kasutuskõlblikud.
Kuna lõviosa tehisintellektiga seotud tippteadusest tehakse USAs, on mudelite kvaliteeti ja ohutust üldiselt hinnatud vaid inglise keelt silmas pidades. Eesti keeles ja kultuuriruumis on tehisintellekti tase ja käitumine seevastu praegu prognoosimatu. Sellest saab lähiajal väga valus probleem, kuna suurkeelte kõnelejatel tekib tehistaibu kasutuselevõtuga teiste ees tuntav edumaa.
End tehnoloogiliselt edasijõudnuteks pidavatele eestlastele võib niisiis tulla üllatusena, et terava noaga ei hakata töötama mitte ainult USA lääneranniku idufirmades, vaid ka näiteks Nigeerias ja Filipiinidel, sest ka sealne asjaajamine on suures osas või täielikult ingliskeelne. Väikerahvastele jäävad ainult halvad valikud – kas jääda kaotajaks majanduslikus konkurentsis või siis leppida sellega, et masinad meile võõrast keelt ja maailmapilti peale suruma hakkavad. Eestlased peavad äkitselt kõvasti vaeva nägema, et kindlustada ligipääs omakeelsele ja -meelsele tehismõistusele ning seeläbi tulevikutehnoloogiale laiemalt.
Tehisintellekti noa teritamisest saab üks kõige suuremaid väljakutseid, mis Eesti ees lähiaastatel ja –kümnenditel seisab. Visandan järgnevalt kõige olulisemad ülesanded, mida see endas kätkeb.
Rahvuslik andmekorje aitab tagada kvaliteedi
Kõigi praegu saadaval olevate tehistaibumudelite – olgu nende loojaks USA suurfirmad nagu OpenAI, Google, Facebook või siis ülikoolid – aluseks olev andmestik pärineb peamiselt internetis avalikult nähtaval olevatest tekstidest. Kindlasti ei moodusta need veebist leitud tekstid eestikeelsete andmete enamikku ega paremikku. Kuna eesti keele sisaldusest mudelite algandmestikus sõltub see, kui hästi masinad meie kultuuri tunnevad, peame ise oma andmete hulka, kvaliteeti ja nähtavust suurendama.
See ei puuduta sugugi ainult raamatukogusid ja arhiive, kus tuhanded digiteeritud raamatud ja miljonid ajaleheartiklid ootavad kasutust treeningandmetena. Eestikeelsetel andmetel on tehistaibu treenimisel väärtus isegi siis, kui nende sisu on argine või vähetähtis, sest tehisarule on inimkeeles leiduvate seoste õppimiseks vaja kõike kättesaadavat. Või nagu on asja kokku võtnud EKI keeletehnoloog Helen Kaljumäe, siis "ChatGPT vajab su vanaema armastuskirju, et olla õige eestlane".3
Et ka tolmu koguvad andmestikud leiaksid endale kasutuse tehisintellekti treeningandmetena, on vaja inimesi ja asutusi üles kutsuda andmedoonorlusele. Eestikeelsete andmete kogumisest peab saama mastaapne ettevõtmine, mis kannab vilja ka sajandite pärast – just nagu seda oli rahvaluulekorje ärkamisajal. Eesti andmetest sõltub meie kultuuri püsimajäämine tulevikus, ning just sellisena peame neid hakkama käsitlema.
Kuna ülivõimsate keelemudelite treenimine on üüratult kallis, pole lähitulevikus mõeldav, et Eestis hakataks tehisintellekti mudeleid treenima. Seepärast on lisaks kogumisele meil vaja selget poliitikat selles osas, kellele me oma andmetest kultuuripärandit kasutada laseme. Näiteks tahame kaasa lüüa Euroopa keelte tundmisele keskenduva tehisintellekti loomises Soomes4, kuid oma andmete pakkumine mõnele Vene või Hiina ettevõttele oleks mõeldamatu. Ameerika tehnoloogiahiidude puhul, kes TI-võidujooksu juhivad, on suured nii ohud kui võimalused.
Eestikeelse kvaliteedikontrolli olulisus
Eestikeelsete andmete ainus eesmärk pole mudelitele keele õpetamine. Muidugi on meil vaja puhast eesti keelt valdavat tehisintellekti, aga grammatiline korrektsus on siiski vaid üks paljudest viisidest, mille abil keelemudeli võimekust hinnata. Teadlased on loonud hulgaliselt erinevaid teste, millega mõõdetakse mudelite üldistusvõimet, küsimustele vastamise ja loogikaülesannete lahendamise oskust ja palju muud. Selliste testide hiilgavad tulemused ongi enamasti tehistaipu ümbritseva meediahaibi algallikaks. Samas jäetakse meedias tavaliselt mainimata, et mudelite "supervõimed" töötavad kõige paremini just inglise keeles.5 Väikekeeltes aga pole tehismõistus mitte lihtsalt piiratum, vaid ka ohtlikum.6
Et veenduda tehisintellekti kvaliteedis ja ohutuses, peame tagama kohapealse hindamise võimekuse, mille eesmärk on mudeleid just meie vaatenurgast läbi katsuda. Standardiseeritud testide välja töötamine ei ole midagi ületamatult keerulist, kuid need peavad hõlmama paljusid elemente, alates emakeele ja ajaloo riigieksamist kuni "Õnne 13" tsiteerimise, mõistatuste äraarvamise ja iduettevõtete nõustamiseni. Ühte ja sama testi saab rakendada erinevatele mudelitele, et neid oleks võimalik võrrelda. Tulemused peaksid olema avalikult kättesaadavad ja pidevalt uuenevad, et kodanikud ja asutused oskaksid neile pakutavate TI-teenuste võimekuse ja ohutuse kohta informeeritud otsuseid langetada. Teisisõnu peab tehisintellekti puudutav teave moodustama osa tarbijakaitsest.
Eesti oma stiimulõpe
Üks põhjus, miks tehistaip väikekeeltes ohtlikum kipub olema, on see, et mudelitele paigaldatud ohutusfiltrid on loodud vaid inglise keelt ja arendajate subjektiivset nägemust silmas pidades. Tehisintellekti loomisel on nimelt võimatu tagada, et treeningandmete tohutu mass ei sisaldaks ebasoovitavat materjali: valeinformatsiooni ja vandenõuteooriaid, kuritegevuse ja terrorismi õhutamist, pildigeneraatorite puhul pornograafiat jne. Seepärast on igal mudelil potentsiaal toota kahjulikku sisu.
Selle vältimiseks viiakse läbi stiimulõpe, mis on lihtsustatult piitsa ja prääniku meetod. Kõigepealt lastakse inimestel hinnata suurel hulgal mudeli loodud väljundi sobivust ning seejärel proovib mudel tagasiside põhjal enda väljundit kohendada. Tulemuseks peaks olema sündsam mudel, mis ei tooda ohtlikku sisu, kasutab viisakat ja neutraalset kõnepruuki ning teab oma võimete piire, näiteks ei hakka kasutajale iseseisvalt vähiravinõuandeid jagama.7
Stiimulõpet tehakse küll teadupärast põhjalikult, kuid läbiviimise põhimõtted on läbipaistmatud ning seda viiakse läbi vaid inglise keeles, mis tähendab, et teistes keeltes (eriti väikestes) pole keegi nende väljundeid kunagi kontrollinud ja tagasisidestanud. Tulemuseks on see, et mudelite vaated on selged vaid üldistes küsimustes nagu näiteks vägivalla ja vaenukõne lubamatus, konkreetsemaks minnes aga ähmastuvad kiiresti. Kuid väärtushinnangutest saab kõige paremini aru just olukordades, kus eristus õige ja vale vahel on peen – artikli alguses toodud hinnang Punaarmee tegevusele on vaid üks võimalikest näidetest.8 Peame mõistma, et nii see kui ka paljud teised meie väärtusruumis fundamentaalsed eristused ei jõua eales suurkorporatsioonide radarile.
Tehisintellekti üks häid omadusi on see, et iga kättesaadavat mudelit on võimalik uue stiimulõppega parandada ja edasi õpetada. Konkreetselt tähendab see, et on võimalik luua eestikeelne ja -teemaline stiimulõppe andmestik ja stiimulõppe programm. Kuna tõhusaks stiimulõppeks on vaja hinnata väga suurt hulka andmeid, mille hindajateks saavad olla vaid eesti keelt ja kultuuri omaks pidavad inimesed, on sellise andmestiku kogumine paras väljakutse.
Pakun siinkohal välja, et tugeva e-taristuga Eestis saaks see toimuda kodanike ühiste digitalgute raames. Tuleb koguda piisaval hulgal tekstirobotite väljundeid ning seejärel hinnata nende vastavust meie komberuumile ja maailmavaatele. Tagasisidestatud väljundite abil ongi võimalik peenhäälestada olemasolevaid mudeleid ehk "teha ChatGPT-st eestlane". Tulemus oleks maailmas ainulaadne, sest Eesti saaks end reklaamida esimese riigina, kel on õnnestunud kokku viia tehisintellekti loomisprotsess ja demokraatia põhimõtted.
Tehisintellekti kodustamisest võiks saada edulugu
Ülal kirjeldatu valguses peaks olema selge, et lahendusi ei maksa oodata Räniorust ega Brüsselist. Tehisaru on kultuuriline nähtus, mis puudutab meid kõiki, ning sellega kohanemine on meie endi ülesanne. Ning mõistagi ei saa lahendused sündida kuskil ministeeriumi sügavuses ega kahe-kolme teadlase vastutusel. Vaja on selget plaani, mis kaasab ülikoole, mäluasutusi, haridustöötajaid, poliitikuid ja kodanikualgatust.
Õnneks on väikesel Eestil ka mõned eelised. Kui andmete kogumisel peame me teistest rohkem pingutama, siis sellised ülesanded nagu riiklik TI hindamine või meie kultuuri peegeldava stiimulõppe loomine on paremini teostatavad just väikeses ühiskonnas. Samuti on meil kasu e-riigi võimekusest, mis lubavad katsetada maailmas ainulaadseid lähenemisi. Kui julgeme mõelda suurelt, võib tehisintellekti kodustamisest saada Eesti suurim edulugu.
Väikekeeltes ei tohi olla tehismõistus piiratum või eksistentsi ohustav. Meie käes olev nuga tuleb ära teritada, muidu lõikab see kätte.
1 https://arvamus.postimees.ee/7758376/krister-kruusmaa-eesti-kultuuril-on-voimalik-tehistaibu-ajastul-voitjate-poolele-jaada
2 Peamise osa GPT-mudelite treeningandmetest moodustab CommonCrawli nimeline veebiarhiiv: https://commoncrawl.github.io/cc-crawl-statistics/plots/languages.html. Ehkki lisaks sellele on kasutatud ka suurt kogust digiteeritud raamatuid, on eesti keele osa nendes ilmselt veelgi väiksem.
3 http://epl.delfi.ee/artikkel/120183918/malupank-eki-ekspert-koik-tekstid-tuleb-digiteerida-ja-veebis-leitavaks-teha-chatgpt-vajab-su-vanaema-armastuskirju-et-olla-oige-eestlane
4 https://novaator.err.ee/1609115189/soomlaste-chatgpt-analoog-hakkab-motlema-ka-eesti-keeles
5 Lai et al. (2023). ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning (arXiv:2304.05613). arXiv. http://arxiv.org/abs/2304.05613; Huang et al. (2023). Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting (arXiv:2305.07004). arXiv. http://arxiv.org/abs/2305.07004
6 Wang et al. (2023). All Languages Matter: On the Multilingual Safety of Large Language Models (arXiv:2310.00905). arXiv. http://arxiv.org/abs/2310.00905; Yong, Z.-X., Menghini, C., & Bach, S. H. (2023). Low-Resource Languages Jailbreak GPT-4 (arXiv:2310.02446). arXiv. http://arxiv.org/abs/2310.02446
7 Ouyang et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35:27730–27744.
8 Nii selle kui ka teiste näidete ja kasutusjuhtude puhul tuleb meeles pidada, et mudeli vastus on iga kord erinev. Seega ei tähenda näited Punaarmeest või Tammsaarest, et näiteks ChatGPT nendel teemadel alati eksiks. Küll aga näitab vastuste suur variatiivsus, et mudel pole oma väljundis kindel.
Toimetaja: Kaspar Viilup