Keelesäuts. Kõnekeele kinnipüüdmise talutav keerukus
Sõnaraamatukoostajad ja suured keelemudelid ei ole alati ühel meelel, millal sõna on kõnekeelne – kõhklusi tekitasid nii haruldased kui ka stilistiliselt markeeritud sõnad, tutvustasid Lydia Risberg, Maria Tuulik ja Eleri Aedmaa Vikerraadio keelesäutsus.
Oma eelmises säutsus rääkisin suure keelemudeli Claude 3.7 Sonnet mõtlemisfunktsioonist. Claude'i arutluskäikude juures oli huvitav veel ka inimmõistusele viitav aspekt, nagu lauses "Ma ei mäleta, et oleksin seda sõna treeningandmetes näinud". Claude'i ülesanne oli nimelt oma treeningandmete põhjal otsustada, kas etteantud sõnale tuleks sõnaraamatus lisada kõnekeelsusele viitav märgend.
Sama ülesannet täitsid EKI sõnaraamatukoostajad, kes said tugineda enda keelekogemusele (ehk keelemudeli mõttes oma treeningandmetele) ning kes said uurida keelekorpust (erinevalt keelemudelist, kes ei saanud väliseid päringuid teha). Osad valimis ette tulnud sõnad olid inimestelegi võõrad (nt karauul, saltser), mistõttu ei saanud ka nemad oma keelekogemusele tugineda.
Sõnaraamatutöö eripära seisneb selles, et otsused tuleb vastu võtta kiiresti, ühe sõna uurimisse ei saa süveneda mitmeks kuuks. Samas ei ole kõnekeelsuse üle otsustamine alati seebiveeselge, sest see on piiripealsem register kui mõni selgelt markeeritud, näiteks lastekeel (nagu sõnad notsu, jallu, kätu).
Valikute tegemise lihtsustamiseks oleme EKI-s lisaks keelekorpuste kasutamisele katsetama hakanud ka suurte keelemudelite võimalusi. Kuna kõnekeel on hägusam register, erinesid ka eri keelemudelid oma arvamustes. Kui sõnade võpsik ja vaevuma (midagi teha) puhul leidsid kõik mudelid, et tegu on pigem neutraalsetes tekstides esinevate sõnadega, ning nt sõna kits tähenduses 'pealekaebaja' pidasid kõik kõnekeelseks, siis näiteks sõnade flaier ja kainer asjus arvamused erinesid.
Ent samuti võisid erineda sõnaraamatukoostajate hinnangud. Näiteks oldi eri meelt sõnade mikrouun, kainer ja taevakanal puhul. Ühel meelel oldi, et pigem neutraalsetes tekstides esinevad võpsik ja kellavärk ning pigem kõnekeelsetes tekstides süümekas ja diil. Kõhklusi tekitasid sõnade värvikus ja kujundlikkus – mõne sõna puhul leiti, et päris neutraalne see ei ole, ent kaheldi, kas see sellepärast kohe kõnekeelne on. Paljud sõnad paistsidki hoopis vanamoodsad või mingil muul viisil stilistiliselt markeeritud (nt noorsand, linnumagus, karuott).
Seega on sõnaraamatutööd tehes kahtlusi ja kõhklusi nii inimestel kui ka suurtel keelemudelitel, kõnekeele kinnipüüdmine on keerukas töö. Teame ka väljendit "eksimine on inimlik" – tööd tehes võib inimestel ette tulla seda, et midagi jääb lihtsalt kahe silma vahele, või siis arvamused sõnade asjus erinevad, aga otsuseid tuleb ikkagi teha. Keelemudelite vastuseid vaadates tuleb seevastu arvestada hallutsineerimise ja enesekindlalt valeinfo pakkumisega ehk et mudelite puhul peab olema valmis "loomingulist" vastust kinni püüdma.
Toimetaja: Karmen Rebane
Allikas: Vikerraadio