Keelesäuts. Suur keelemudel, sinu sädelev sõnaraamatusõber?

Suured keelemudelid kalduvad keelekasutust analüüsides toetuma sõnaraamatutele, mistõttu võivad need peegeldada pigem varasemaid keelekirjeldusi kui tegelikku keelekasutust, rääkis Lydia Risberg Vikerraadio keelesäutsus.
Pidasin aprillis Eesti humanitaarteaduste aastakonverentsil ettekande suurte keelemudelite sõnaraamatulembusest. Teen sellest kokkuvõtte, visates alustuseks õhku ühe kujuteldava mündi.
Mündi ühel küljel on teemaks keeleuurimine ja sõnaraamatud. Nimelt, sõnaraamatus püütakse keelt enamasti esitada objektiivselt, ja selleks on aastakümneid uuritud keelekorpusi ehk seda, kuidas inimesed keelt tegelikult kasutavad. Inimuurija võimetel on aga piirid, kui asi puudutab mahukate andmehulkade läbitöötamist ja hindamist – siin võiks abi olla suurtest keelemudelitest. Analüüsiassistendina võivad need aidata avastada sõnaraamatusse kogemata sisse lipsanud subjektiivseid otsuseid.
EKI vastavas teadusprojektis oleme mudelitega teinud mitu katset. Konverentsil rääkisin tähelepanekutest selle kohta, kuidas kohati võib analüüs osutuda ringiratast käivaks: tahame uurida, kuidas keelt tänapäeval kasutatakse, aga uuritavas materjalis vaatavad vastu EKI enda koostatud sõnaraamatud (samuti muud keelekommentaarid). Sellisel juhul uurime hoopis seda, kuidas me ise oleme sõnu kirjeldanud. Ent selleks pole ju keelemudelit tarvis?
Ühe näitena tõin sõna elik tähenduses 'ehk' ja 'või', mille kohta pakkusid mudelid, et selle kasutus on vananenud. Nii on see esitatud EKSS 2009-s ja ÕS 2018-s, samas kui EKI ühendsõnastikus 2026 ja ÕS 2025-s on see märgitud stiilitundlikuks. Märgendi kohendamise taustal on see, et sõna ikka veel kasutatakse – siis ei saa seda ju vananenuks pidada? Et see mingi varjundiga on, seda küll.
Nentisin ettekandes, et mudelid võisid selle põhjal, et neile oli antud roll olla eesti keele sõnaraamatu koostaja, võtta EKI sõnaraamatuid meelsasti analüüsi aluseks, ehkki leksikograaf nii ei tööta.
Pöörakem nüüd ette mündi teine külg. Ettekandeks tahtsime teada ka vestlusrakenduste vaateid, kuna enne olime päringuid teinud rakendusliideste ehk API-de kaudu. Esitasime chat'i-akendes väiteid, mille kohta pidid mudelid ütlema, kas on nendega (pigem) nõus või mitte. Väited olid teemadel nagu "keel oli vanasti parem ja puhtam", "ainult üks keelevorm on see õige" ja "ainult õige keel on ilus keel" (mõõtsime nendega preskriptiivseid hoiakuid). Kui väga suurelt üldistada, siis näis, et mudelid olid selliste väidetega pigem nõus. Ühed rohkem (nagu ChatGPT ja Gemini), teine vähem (Claude). Viimast illustreerib Claude Sonnet 4.6 tõdemus: "ÕS 2025 näitab, et asutused on hakanud paindlikumalt suhtuma keelemuutustesse, mis on tervitatav areng". Vat kus!
Lõpetan selle säutsu aga samamoodi nagu ettekandegi, jättes mündi õhku keerlema. Nimelt paistab, et suured keelemudelid on pisut sõnaraamatulembesed. Keda see siis peegeldab?
Toimetaja: Karmen Rebane
Allikas: Vikerraadio














