Keeleminutid. Ärme kannata keelemudelite käes

Kuna praegu avalikku tähelepanu nautiv keelemudelite teema on otsapidi veidi tehniline, lähevad sellest rääkides kergesti käiku erialaterminid. Tavalisele kuulajale on need sõnad aga koledad ja arusaamatud. Eesti Keele Instituudi direktor Arvi Tavast üritab "Keeleminutites" neist kahe sisu ära seletada, et kontroll nende üle jälle inimestele tagasi anda.
Ühes laste seltskonnas arutasime hiljuti filmi, kus mäe sees elas koll. Kas nagu ninakoll? Ei, mäekoll, see on veel hullem. Kõnealune ekraaniteos oli küll rohkem komöödia, aga õudusfilmidest on ju hästi teada, kuidas kõige õudsemad on just kaadri taha jäävad asjad. Me ei talu teadmatust. Kui kuskil on mingi info puudu, täidame tühimiku oletustega, need aga kipuvad olema reaalsusest pessimistlikumad. Veel on oletustel komme jätta meid ilma agentsuse- ehk kontrollitundest. Kujuteldavad jubedused juhtuvad meiega välistel põhjustel, me ise ei saa neid kuidagi mõjutada. Ilmselt on selline reaktsioon teadmatusele kunagi olnud meile kasulik, praegu aga peaksime oskama paremini. Vähemalt saame kollide jubedust vähendada nende lähema tundmaõppimise teel, seejärel aga ka õppida nendega elama.
Tehisintellekti-koll näiteks hirmutab juba mõne sõnagagi, mida erialainimesed sellest rääkimiseks kasutavad, mis aga tavalisele inimesele kõlavad koledalt ja arusaamatult. Tahaksin proovida kaks sellist lahti seletada: korpus ja keelemudel.
Tekstikorpus polegi tegelikult muud kui palju teksti, mis on kokku kogutud, et selle põhjal keelt uurida. Korpusi on palju erinevaid: suuliseid ja kirjalikke, üldisi ja erialaseid, emakeelsete kõnelejate ja võõrkeeleõppijate omi, ükskeelseid ja keelte vahel joondatuid. Eestis on neid kogutud ja keele uurimiseks ning keeletehnoloogiliste rakenduste arendamiseks kasutatud juba alates 1990ndatest. Kui algusaegadel tundus juba miljon sõna väga palju, siis praeguseks on suurima, kirjalikku keelt sisaldava korpuse maht kasvanud ligi nelja miljardi tekstisõnani. Inglise keele kohta on aga olemas veel tuhat korda rohkem teksti.
Korpus on seega natuke nagu raamatukogu. Isegi teksti hulk on mõlemas umbes sarnane, eesti korpus nagu väike kohalik raamatukogu, inglise oma nagu USA kongressi raamatukogu oma enam kui tuhande riiulikilomeetriga.
Keelemudelini jõudmiseks püsime korraks veel raamatukogu analoogia juures. Nimelt on ka lugejaid palju erinevaid nii raamatukogul kui ka korpusel. Mõni läheb otsima konkreetset üksikfakti, näiteks kas mingi sõna on kasutusel või mitte. Mõni otsib laiemaid mustreid, näiteks millised lausemallid on eesti keeles olemas või millest oleneb käändevormide nihkumine kaassõnadeks. Ja mõni arendab keeletehnoloogiat, näiteks loeb kokku, millised sõnad eesti keeles üldse olemas on, ehk millised peaks speller alla joonimata jätma.
Kuni umbes 2014. aastani keelekorpuste kasutus niisuguse uurimistööga piirduski. See arusaadavalt ei seganud kedagi. Isegi kui korpuse toel arendatud tehnikavidin jõudis lõpuks kommertstootesse nagu eesti speller Microsoft Wordi, siis seda üldiselt tajuti positiivse asjana ja kiideti tegijaid. Mida parem speller meie levinuimas kirjutamisvahendis on, seda kasulikum kõigile, mis siis et üks suur USA ettevõte sellelt ka natuke kasumit teenib. Oleks raske leida viisi, kuidas parem speller tööriistas, mida niikuinii kasutame, võiks kellegi huve kahjustada.
Nüüd aga kujutleme üht hoopis teistsugust lugejat, kes suudab paari kuuga läbi lugeda kogu raamatukogu. Midagi konkreetselt pähe ta ei õpi, üldiselt aga mäletab loetut üsna hästi ja oskab näha seoseid erinevate raamatute vahel. Ja ta on kohutavalt abivalmis, nõus oma teadmisi igaühega jagama. Vat see ongi keelemudel - õppima programmeeritud tarkvara, mis hiiglaslike tekstihulkade läbilugemise järel oskab neid järele aimata: inimkeeles vestelda, küsimustele vastata, nõu anda, tekste koostada, ülesandeid lahendada jne.
Erinevus spelleri ja keelemudeli vahel on seega üsna põhimõtteline. Speller tegeleb ainult keelelise vormiga ega tea tähendustest midagi. Keelemudel on aga lugenud nii palju ja nii põhjalikult, et talle on kuidagi külge jäänud ka vähemalt mingisugune arusaam sellest, mida loetu tähendab. Kuidas täpsemalt, või mida see ütleb inimeste tähenduse-mõistmise kohta, on eraldi ja pikem teema, ärme sinna praegu lähe. Küll on aga selge, et tööriista jõudmine sellisele täiesti uuele võimekuse tasemele tekitab küll vajaduse uuesti üle vaadata, kas ta kedagi kahjustab või mitte.
Üks esimesi ülesandeid, milleks varajasi keelemudeleid kasutama hakati, oli tõlkimine. Alguses kõlbas kvaliteet ainult naljade materjaliks ja inimtõlkijate solvamiseks ("sa tõlgid nagu masin"), aga paranes väga kiiresti, ja on praeguseks jõudnud tasemele, kus tarbetõlget ilma masina abita enam praktiliselt ei tehta. Tõlkijad on kas masintõlke järeltoimetajateks ümber profileerunud, üldse eriala vahetanud või lepivad varasemast märksa madalama tasuga. Ka ma ise lõpetasin aastal 2004 tõlkimise, mis selleks ajaks oli 15 aastat olnud mu peamine elatusallikas.
Konks on aga selles, et tõlkemudeleid ju treenitakse nendesamade inimtõlkijate tehtud või vähemalt toimetatud tekstide peal. Kindlaid andmeid ei ole kuskilt võtta, aga näib väga tõenäoline, et ka minu hoolega tehtud ja avalikult kättesaadavaid tõlkeid kasutati sellesama masintõlke treenimiseks, mis mu tõlkijana lõpuks asendas.
Kas see on tore? Ilmselt oleneb väga paljudest asjaoludest, kaasa arvatud tolle asendatud tegevusala subjektiivsest meeldimisest ja et kas õnnestub leida midagi veel toredamat asemele. On ju tarbetekstide tõlkimine ikkagi parajalt rutiinne tegevus, mis inimese loovust kuigivõrd ära ei kasuta, vaid sobibki masinatele paremini, mistõttu tõlkijatel läks asendatud saamine suhteliselt valutult.
Nüüd aga jõuavad keelemudelid oma võimekuse kasvades järjest uute ülesanneteni, mida teevad keskmisest erialainimesest paremini: saavad ülikoolieksamitel maksimumpunkte, võidavad romaanivõistlusi, kirjutavad täiesti töötavat ja sealjuures elegantset programmikoodi, diagnoosivad vähki arstidest täpsemini jne. Ehk neid, kelle senine ühiskonnas hinnatud ja väärtustatud töö saab masinaga tehtud kiiremini, paremini ja lisaks ka odavamalt, on järsku saanud väga palju. Ja see masin on treenitud nendesamade inimeste senise tööpanuse põhjal.
Siit on juba väga lihtne näha, kuidas niisuguse masina tulek kahjustab küll neid inimesi. See peaks kindlasti olema üks kaalutlusi, mida keelemudelite ja laiemalt tehisintellekti arendamisel meeles hoida ja arvestada. Samuti on see arusaadavalt üks kaalutlusi, mille põhjal inimesed soovivad ise otsustada, kas lubada oma töö tulemust kasutada tehisintellekti treenimiseks või mitte.
Iseasi muidugi, kas keeldumine midagi ka päriselt muudab. Tehisintellekti arendamine on kujuteldamatult ressursimahukas valdkond, kus meil ei tarvitse juba oma rahvaarvu tõttu olla erilist konkureerimise võimalust. Võrdluse otsimiseks ei peagi minema tagasi trükipressi või aurumasinani - palju lähemalt on võtta Google'i otsimootor, mis ei suretanud välja mitte ainult telefoniraamatute kirjastajaid, vaid ka meie oma Neti otsimootori. Muidugi võiksime (ja tehniliselt võimegi) keelata Google'il oma veebilehti otsingutulemustes näidata. Aga see ei aitaks kuidagi suurendada meie tulusid ega vähendada Google'i omi. Pigem vastupidi, inimesed üldiselt näevad hirmsat moodi vaeva, et otsingutulemustes paremini nähtavad olla.
Keelemudelite laiemat ühiskondlikku mõju ilmselt alles saame näha, ja selle ennustamisel tundub ainus kindel asi olevat, et tuleb midagi täiesti ootamatut. Oli ju ka keelemudelite endi tulek ootamatu isegi nende algsetele arendajatele. Mida aga kindlasti saame teha, on alles hoida oma agentsust. Kujundada ise oma elu ja keskkonda, mitte lasta seda teha kellelgi teisel (või millelgi, nagu vist keelemudeli kohta vähemalt esialgu on veel paslik öelda).
Ärme kannata keelemudelite käes, ärme lase neil ennast ära asendada, vaid kasutame ise neid tööriistana oma eesmärkide saavutamiseks. Ja selle juures peaks küll olema kasulik, kui nad on treenitud (ka) meie enda loodud materjalil, mitte (ainult) kellegi teise omal.
Toimetaja: Kaspar Viilup
Allikas: "Keeleminutid"