Keeleminutid. Kas tehnoloogial on keeleteadust vaja?

Masinõppemudelite üheks kitsaskohaks on nende vähene läbipaistvus ehk olukord, kui süsteem annab küll (hea) tulemuse, kuid selleni jõudmise protsessi on keeruline seletada, veel vähem teistele kirjeldada, kirjutas EKI keeletehnoloog Eleri Aedmaa "Keeleminutites".
Keeletehnoloogia hõlmab mitmeid eri valdkondi alates keeleteadusest kuni matemaatika ja statistikani. Keeletehnoloogias on keskses rollis juba mitu aastat suured keelemudelid, mis õpivad justkui iseenesest andmetest uusi teadmisi ja mustreid ning saavutavad üha paremaid tulemusi. See on tõstatanud küsimuse keeleteaduse rollist keeletehnoloogias – kui varem oli see selge ja keelemudelid tuginesid suuresti lingvistikale, siis nüüd näib, et tehnoloogiat arendatakse ka ilma otsese keeleteadusliku sisendita. Näiteks masintõlkemudelid ei vaja juba ammu keelereeglite kogumit, et pakkuda kvaliteetset tõlget.
Tegelikult on aga keeleteaduse panus keeletehnoloogias palju mitmekülgsem kui pelgalt keele kirjeldamine. Esiteks on keeletehnoloogia vundamendiks kvaliteetsed andmestikud – sõnaraamatud, andmebaasid, käsiraamatud ja korpused, mida keeleteadlased on aastakümnete jooksul koostanud. Need ressursid võimaldavad arendada süsteeme, mis arvestavad keele mitmekülgsust, sisaldades muuhulgas erinevaid murdeid, žanre, stiile, valdkondi, väikese kõnelejaskonnaga keeli, aga ka vormi-, lause- ja tähendusõpetust.
Teiseks on keelekasutajatel keskne roll tehnoloogiate hindamisel. Kuigi paljud hindamisprotsessid on automatiseeritud, põhinevad need siiski andmetel, mille on kokku pannud keelekõnelejad, keerulisemate ülesannete puhul eksperdid. Eriti oluline on keeleteadlaste panus haruldaste ja keerukate keelenähtuste hindamisel – just nemad oskavad tuvastada tehnoloogiate nõrku kohti ja pakkuda lahendusi nende parandamiseks. Keeletehnoloogias väga väärtustatud inimhinnangutel põhinevad kvalitatiivsed analüüsid avavad tehnoloogiate neid külgi, mis arvandmetest läbi ei kuma.
Masinõppemudelite üheks kitsaskohaks on nende vähene läbipaistvus ehk olukord, kui süsteem annab küll (hea) tulemuse, kuid selleni jõudmise protsessi on keeruline seletada, veel vähem teistele kirjeldada. Siin tulevad appi keeleteaduslikud teooriad ja meetodid, mis aitavad mudeli käitumist süstemaatiliselt analüüsida. Keeleuurijad oskavad hinnata, milliseid keelelisi nähtusi (näiteks mitmetähenduslikke sõnu või keerulisi süntaktilisi konstruktsioone) mudelid hästi või halvasti mõistavad. See omakorda võimaldab mudeleid sihipäraselt täiustada. Lisaks aitavad keerulisi mehhanisme selgitada ühtlustatud terminoloogia ja selge keelekasutus, millesse keeleeksperdid kogu aeg panustavad.
Nii näemegi, et keeleteaduse ja -tehnoloogia suhe on kahesuunaline: lingvistid on ühtaegu nii tehnoloogia arendajad, hindajad kui ka kasutajad. Nad aitavad luua keeleressursse, hindavad süsteemide kvaliteeti ning kasutavad neid oma uurimistöös. Teisalt pakuvad keeletehnoloogilised tööriistad (näiteks üha paremad ja lihtsamini rakendatavad mudelid) uusi meetodeid keele ja kultuuri uurimiseks, võimaldades avastada mustreid, mida käsitsi analüüsides oleks võimatu leida.
Seega, jah, keeletehnoloogial on keeleteadust ja -teadlasi vaja.
Toimetaja: Kaspar Viilup
Allikas: "Keeleminutid"