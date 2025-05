Viimaste aastate arenguhüpe keeletehnoloogias suurte keelemudelite (SKM) näol on võimaldanud luua tööriistu, mis veel hiljuti tundusid ulmelised. Samas on endiselt oluline, et järelduste ja otsuste tegemisel säiliks andme- ja tõenduspõhisus, kirjutab EKI keeletehnoloog Eleri Aedmaa "Keeleminutites".

SKM-id ei ole tõekuulutajad, vaid inimest assisteerivad tööriistad, mis võimaldavad muuhulgas kiiresti töödelda suuri andmehulki, põrgatada ideid, otsida infot, lahutada meelt jne. SKM-id on võimelised sooritama osi ülesandeid, nt sisukokkuvõtete tegemist, väga tulemuslikult. Samas jäävad need sageli hätta erialateadmisi või keerukaid keeleküsimusi puudutavate ülesannetega, kuna mudelite treenimisel kasutatud andmed ei pruugi neid teadmisi sisaldada.

Üks tõhus meetod SKM-ide järeleaitamiseks ning usaldusväärsemaks muutmiseks on RAG (lühend ingliskeelsest terminist Retrieval-Augmented Generation), mis ühendab SKM-i generatiivse võimekuse väliste andmeallikatega. RAG-süsteemides ei vasta mudelid küsimustele pelgalt treenimisel omandatud teadmiste põhjal, vaid otsivad lisatud andmetest esmalt teemakohast teavet ja loovad siis sellele tuginedes vastuseid.

Andmetest leitakse asjakohane info üles sarnaselt tänapäeva otsingumootorites (nt Google) rakendatud tehnoloogiale, mis põhineb tähenduslikul sarnasusel. Infootsingus võidakse kasutada ka teisi tehnikaid, nt andmete loomiskuupäevade või teemade järgi järjestamine, mis teevad asjakohase info leidmise veelgi tõhusamaks. RAG-süsteemides leitaksegi lisatud andmetest esmalt üles kõige asjakohasem info ning seejärel genereeritakse seda infot kaasates "tavalise" SKM-iga võrreldes täpsemad, põhjendatumad ja usaldusväärsemad vastused. RAG-i kasutatakse tänapäeval edukalt erinevates valdkondades, nt meditsiinis, õigusvaldkonnas, hariduses. Paljud laialt kasutusel olevad tehisintellektirakendusedki võimaldavad kasutajal oma andmeid üles laadida ja paluda nende põhjal vastuseid genereerida.

EKI-s oleme RAG-i kasutanud näiteks koostöös kaitseväe akadeemiaga projektis "Tehisintellekti rakendamine riigikaitseterminoloogia valdkonnas", et luua terminitööd toetav tööriist. Kuigi tehisintellekt võib toetada paljusid terminitöö etappe, võimaldab praegune tööriist andmetest automaatselt eristada potentsiaalseid definitsioone, kontekste ja seotud termineid koos allikaviidetega. Loodud süsteem edastab andmetest pärinevat sisu ning viitab täpselt leheküljele dokumendis, kust info pärineb. Seega saab terminoloog kindel olla, et sisu, millega ta edasi töötab, on usaldusväärne ja mitte tehisintellekti genereeritud väljamõeldis. Nii on terminoloogil võimalik pühendada varem mahukatele infootsingutele kulunud aeg sisulisele mõttetööle – sinna, kus aastate jooksul kogunenud erialateadmised, kogemus ja keelevaist on asendamatud.