Keeleminutid. Tehisaru pakub sisetundele konkurentsi
Eesti Keele Instituudi esimene katsetus andis aimu, et tehisaru ning teisi suuri keelemudeleid võiks juba praegu keelekorpuse ja sisetunde kõrval kasutusele võtta, kirjutavad EKI teadur-keelekorraldaja Lydia Risberg ning vanemteadur Maria Tuulik "Keeleminutites".
Tehisaru, sh suured keelemudelid, on eri valdkondades toonud kaasa arutelu, kuidas seda võimalikult tõhusalt rakendada. Ka Eesti Keele Instituudis (EKI) uurime sõnaraamatutöö jaoks, kas ja kuidas saaks kasutada suuri keelemudeleid sõnaraamatukoostaja ehk leksikograafi abilisena.
Sõnaraamatu koostamisega kaasneb palju ülesandeid, sealhulgas registrimärgendite lisamine. Sellised märgendid näitavad näiteks seda, kas mõni sõna või tema tähendus kuulub pigem kõnekeelsesse konteksti (fanatt, siva), on halvustava sisuga (ajukääbik, haisukott) või on sõna kasutatud ennekõike luules (koidukuld, meeleheit).
Märgendite määramisel on senini tuginetud keelekorpuse andmete analüüsimisele (sealjuures võib tulemus andmete tõlgendajati erineda), enda sisetundele või ka varasemate sõnaraamatute koostajate hinnangule. Keelemudelid võiksid mitmekesistada märgendite määramise alust. Selleks tegime EKI töörühmaga esimese katse, et teada saada, kas suured keelemudelid saavad leksikograafi aidata selle hindamisel, millistes tekstides konkreetne sõna tüüpiliselt esineb.
Vaatasime, kas keelemudelite ja korpuse põhjal otsustavad töörühma liikmed samade märgendite kasuks, mis sõnaraamatutes varem on olnud. Siin artiklis tutvustame keelemudelite (vanem GPT-4 ja uuem GPT-4o) tulemusi. Katsesse valisime sõnu 2024. a EKI ühendsõnastikust ja 2018. a õigekeelsussõnaraamatust – kokku oli neid 240. Kaasasime nii kõnekeelseid, murdesõnu kui ka märgendita sõnu.
Töörühma liikmed hindasid keelemudeleid üldiselt kasulikuks (81 protsendi sõnade puhul). Mudelid said hakkama üldlevinud sõnadega (aeglus, rõõmustama), analüüsisid adekvaatselt mitmest osast koosnevaid väljendeid (nt end sisse seadma) ning mitmetähenduslike sõnade eri tähendusi (nt tähemärk, kiri). Järgnevalt keskendume aga väiksematele kitsaskohtadele.
Keelemudelite tulemusi mõjutas suuresti sõna sagedus – mida harvem sõna, seda tõenäolisemalt mudelid seda ära ei tundnud (sama kehtib ju ka keelekasutajate kohta). Mudelid võisid infopuudusel vastuse andmisel erineda, öeldes kas otse, et ei tea, või proovida midagi välja mõelda. Näiteks pakuti sarnasuse alusel sõnale mingit muud tähendust: pommima tähenduse 'kelleltki midagi välja pressima' asemel tähendust 'pommitama', murdesõna kossutama tähenduse 'kössitama' asemel 'korvpalli mängima'. Sõna torukil, mida kasutatakse huulte vm toru meenutava kuju iseloomustamiseks, pidas vanem mudel ilmselt toruks, sest pakkus valdkondadeks ehitust ja remonti.
Ka murdesõnade puhul oli sagedus oluline määraja. Üldiselt said mudelid murdesõnadega kehvemini hakkama kui üldkeele sõnadega. Näiteks harvema murdesõna targema 'suutma, võima, välja kannatama' asemel pakkus mudel seost targemaks muutumisega, ent sagedama õkva 'otse' tundis ta murdesõnana ära.
Vahel pakkusid mudelid ülekantud tähenduse asemel otsest tähendust, mis tulenes liitsõna osadest: uuem mudel pakkus lehmakauplemise 'erakondadevaheline kokkulepete otsimine' valdkondadeks küll poliitikat ja ärindust, aga vanem mudel põllumajandust ja ajalugu. Sõna maarott puhul, mida meremehed tarvitavad meresõidukogemuseta inimese kohta, pakkusid mudelid hoopis linna- ja maainimese vastandust.
Vähestel juhtudel paistis mudelite vastustest läbi inglise keel. Näiteks sõna bass puhul pakkus mudel lisaks muusikale valdkonnaks ka kalandust, öeldes sealjuures, et "Bass on ka teatud kalaliikide nimetus, näiteks meribass" (inglise keeles tähendab bass ahvenat). Mudelile tekitasid raskust ka sõnad, mis kattusid pärisnimedega. Neis ei leidunud sõna oskar sealiha tähendust ega murdesõna rait hiiglasuure asja tähendust. Mõneti on selline tulemus ootuspärane, sest kui tähendus on ka keelekasutuses teiste kasutuste seas väga harv, ei saa eeldada, et mudeli treeningmaterjalis seda väljatoomiseks piisavalt leidub.
Kokkuvõttes oli kirjeldatud kitsaskohtadel katse tulemustes siiski väiksem osakaal kui mudelite hüvedel – suuri keelemudeleid hinnati registrimärgendite määramisel üldiselt kasulikuks. Mudelitest oli selles katses enim kasu siis, kui tegu ei olnud harva sõna või tähendusega. Kuigi säilitama peab ka kriitilist meelt, võiks mudelitest juba praegu olla märgendite lisamisel tuge, sest nad teevad oma vastuses kirju treeningmaterjali põhjal kokkuvõtte paljude inimeste keelekasutusest. Ehk annavad järgmised katsed veelgi paremaid tulemusi, sest ka keelemudeleid arendatakse pidevalt, nt õpetatakse neile eesti keelt ja kultuuri.
Toimetaja: Kaspar Viilup
Allikas: "Keeleminutid"