Keeleminutid. Keeletehnoloogia vajab mitmekesisemaid andmeid ja piirideta koostööd

Näiteks tõid norralased Tallinnas toimunud keeletehnoloogia teaduskonverentsil oma kogemuse põhjal välja, et autoriõigustega kaitstud materjalide kättesaamine ja kasutamine vajab põhjalikke läbirääkimisi andmete omanikega, sest õiglaseid kompensatsioonimehhanisme pole välja töötatud.
Eelmisel nädalal, 2.–5. märtsil, toimus Tallinnas esimest korda ühine Põhjamaade ja Baltikumi keeletehnoloogia teaduskonverents NoDaLiDa/Baltic-HLT 2025, mis tõi kokku valdkonna eksperdid eelkõige Põhja- ja Baltimaadest, aga ka mujalt maailmast.
Viimaste aastate arenguid arvestades pole üllatav, et suured keelemudelid (SKM) pälvisid ka selle konverentsi programmis ja külgnevates töötubades põhitähelepanu. Oluliseks aruteluteemaks olid SKM-ide rakendamisvõimalused väheste ressurssidega keeltel. Ettekannetes ja aruteludes keskenduti muuhulgas valdkondadele nagu keeleõppe tõhustamine, kõnetehnoloogia arendamine, sõnastikuressursside loomine ja grammatikakorrektorite väljatöötamine. Mitmes töötoas arutleti ressursside vähesuse üle, see mõjutab nii SKM-ide kui ka üldiselt keeletehnoloogia arendamist, parandamist ja hindamist.
Bocconi ülikooli professor Dirk Hovy võrdles oma plenaarettekandes inimese ja suure keelemudeli võimekust keeles ja tähendustes orienteerumisel, puudutades ka keelemudelite turvalisuse ning nende sotsiaalse ja kultuurilise kohaldatavuse probleeme. Uue tehisintellekti arenguhüppe tagab tema sõnul see, kui mudelid hakkavad sotsiaalseid norme mõistma. Keelemudelite võimekust hindavate uute andmestike ja meetodite vajadust rõhutas nii tema kui ka mudelite hindamisele pühendatud töötuba, kus leiti, et mudeleid peab hindama senisest usaldusväärsemalt, kaasates võimalikult palju eri keeli, olenemata nende kõnelejate arvust.
SKM-ide kõrval rõhutati ka kitsama masinõppe rakenduste ehk spetsialiseeritud süsteemide eeliseid, näiteks konkreetsele tulemusele suunatust, mis suure tõenäosusega garanteerib parema tulemuse. Plenaaresineja, Groningeni ülikooli kaasprofessor Arianna Bisazza demonstreeris, et keelt on tänasel SKM-ide ajastul võimalik ja mõttekam uurida ka väiksemate mudelitega. Vaatamata uuemate meetodite populaarsusele leidsid konverentsi kavas koha ka töötoad ja ettekanded, mis käsitlesid keeletehnoloogia traditsioonilisi meetodeid (nt kitsenduste grammatika). Neis arutati reeglipõhiseid rakendusi puudutavaid arenguid, aga ka nende kombineerimist statistiliste lahendustega ehk hübriidlahenduste võimalusi, mis võiks viia veel paremate tehisintellektirakendusteni.
Keeletehnoloogia arendamiseks on vaja andmeid ning nende kogumise juriidiliste aspektide probleemistik kõnetas paljusid osalejaid. Eesti olukorda kirjeldas oma plenaarettekandes EKI direktor Arvi Tavast, aga nagu osalejate vastukajast ning teistest ettekannetest selgus, siis murekohad on riigiti enam-vähem samad. Näiteks tõid norralased oma kogemuse põhjal välja, et autoriõigustega kaitstud materjalide kättesaamine ja kasutamine vajab põhjalikke läbirääkimisi andmete omanikega, sest õiglaseid kompensatsioonimehhanisme pole välja töötatud. Samas rõhutasid nad, et just seesugused kvaliteetsed materjalid aitavad märkimisväärselt parandada keeletehnoloogiamudelite tulemusi, eriti keeruliste ülesannete lahendamisel. Lahenduste leidmiseks ja keelte võrdseks esindatuseks keelemudelites on rahvusvaheline koostöö ülioluline ning pole imekspandav, et sellekohane üleskutse leidis konverentsi osalejate seas laialdast toetust.
Kahe aasta pärast toimuvad konverentsid taaskord eraldi – Põhjamaade NoDaLiDa Taanis, Baltimaade Baltic-HLT Leedus. Konverentsi kohapealne korraldaja oli Eesti Keele Instituut.
Toimetaja: Kaspar Viilup
Allikas: "Keeleminutid"