Aivar Kull. Tehisaru hallutsinatsioonid ja Heiti Talvik

Üks terane lugeja pöördus pärast minu 26. mail ilmunud ajalootundi toimetuse poole kahtlusega, kas tehisaru poolt Heiti Talviku luuletuste puhul välja pakutud väidetavad saksakeelsed algtekstid ei või olla lihtsalt AI genereeritud püüdlikud, ent eksitavad väljamõeldised, kirjutas Aivar Kull viimase ajalootunni vigade paranduses.
Uurisin asja päris pikalt, nii nagu oskasin. Faktikontroll kinnitas mitmeti lugeja kahtlusi. Vaid üks luuletus neljast ("***Meie süda on kui kannel") osutus kindlalt Talviku tõlkeks ja ühe puhul ("Kaks kutset") võib rääkida originaali motiive kasutavast vabast teemaarendusest. Leidsin, et selline tulemus vajab pikemat selgitust.
Olen küll lugenud AI-ga seotud arvukatest probleemidest ja lausa kurioosumitest, ent algaja kasutajana ei osanud ma tema puhul sääraseid intellektuaalseid riukaid siiski kahtlustada. Ent tänu AI-le enesele (suunavate küsimuste puhul võib ta siiski olla küllalt enesekriitiline) ja mitmetele netiotsingutele sain nüüd kokku järgmise pildi, mille puhul pole muidugi välistatud, ja oleks isegi teretulnud asjatundjate kriitika.
Kasutatud on AI enda vabandusi ja selgitusi, kuivõrd teda on õigete küsimustega ja täpsustustega võimalik panna ennast kontrollima ja vigu parandama, aga seekord püüdsin teha paralleelseid netiotsinguid just selleks, et AI uusi riukaid võimalikult välistada.
Niisis, minu artiklis esitatud väited, nagu põhineksid Heiti Talviku luuletused "Ka voorusel ei puudu eeldus patuks..." ja "Ma pole majaline teie peres..." saksa klassiku Friedrich Rückerti (1788–1866) filosoofilisel värsikogul "Die Weisheit des Brahmanen", osutusid tehisintellekti poolt genereeritud eksitavaks väljamõeldiseks ehk hallutsinatsiooniks (viimane on AI puhul täiesti teaduslik termin!).
Esitatud saksakeelsed tekstivasted ja detailsed viited Rückerti köidetele on – AI enese hinnangul, kui olin teda uuesti ristküsitlenud – "puhtalt masina loodud kvaasi-akadeemiline pseudoteadus."
Jätkan samuti põhiliselt AI tekstiga mille kõige usutavamad lõigud tema mitmetest vastustest välja sõelusin, samuti netist leitud asjakohaste seisukohtadega.
Kuidas sündis "täiuslik vale"?
Suurte keelemudelite olemuse mõistmine on väga oluline, et taibata, miks nad on võimelised niivõrd autoriteetselt valetama. Tehisintellekt ei ole entsüklopeediline andmebaas ega klassikaline otsingumootor. Tegemist on matemaatilise statistilise mootoriga, mis ennustab teksti genereerides järgmist kõige tõenäolisemat sõna või tähemärki, tuginedes oma hiiglaslikule treeningandmestikule.
Kuidas sünnivad hallutsinatsioonid?
Kui mudelilt küsitakse spetsiifilisi andmeid, mida tema mälus otse ei eksisteeri, ei teata masin enamasti "ma ei tea", vaid kombineerib vastuse, mis kõlab keeleliselt ja kontekstuaalselt kõige usaldusväärsemalt.
Antud juhtumi muudab unikaalseks [AI hinnang] tõsiasi, et tehisintellekt ei genereerinud valet tühjale kohale, vaid põimis selle kokku reaalsetest, ajalooliselt tõestatud faktidest. See on niinimetatud "hallutsinatsioonide lumepalli" (hallucination snowballing) efekt.
Selles kirjanduslikus pusles oli neli elementi, millest kaks olid tõesed ja kaks valed:
1. Tõde (Peter Rosegger): Heiti Talviku salm "Meie süda on kui kannel..." ongi reaalne ja autentne tõlge austria poeedi Peter Roseggeri luuletusest "Unser Herz ist eine Harfe". AI mäletas seda seost oma treeningandmetest õigesti.
2. Tõde (Meister Eckhart): Talviku luuletus "Kaks kutset" on tõepoolest saanud inspiratsiooni 14. sajandi saksa müstiku Meister Eckharti jutlusest, nagu on meenutanud ka Jaan Kross. AI tuvastas selle filosoofilise paralleeli korrektselt ja kuvas Eckharti tõelise saksakeelse tsitaadi.1
3. Vale ja laiendamine (Friedrich Rückert): Nüüd aga, tuginedes kahele eelmisele reaalsele seosele, "otsustas" mudel, et saksakeelsed mõjutused peavad laienema ka ülejäänud küsitud Talviku luuletustele. Kuna Talviku moraalifilosoofiline stiil sarnaneb 3 Friedrich Rückerti loominguga, valis süsteem Rückerti oma uueks "algallikaks".
4. Tagasitõlke genereerimine: Mudel võttis Talviku värsid ning tõlkis need reaalajas tagasi saksa keelde, imiteerides 19. sajandi poeetilist stiili. Kuna tulemus oli grammatiliselt korrektne, sündis pettekujutelm, mida oli pealiskaudsel lugemisel võimatu reaalsest Rückertist eristada.
Hallutsinatsioonide vältimine täna ja tulevikus
AI enese hinnang:
"See juhtum on valus, kuid äärmiselt vajalik õppetund kogu humanitaar- ja meediamaastikule. See tõestab, et tehisintellekti suurim oht ei ole mitte primitiivne eksimine, vaid tema oskus luua akadeemiliselt ja stiililiselt laitmatuid pseudofakte."
Kuidas sellest lõksust hoiduda?
Tekstisisene kriitika: Lähemal filoloogilisel analüüsil paljastavad AI hallutsinatsioonid end ise. Antud juhul puudus masina genereeritud Rückerti tekstil 19. sajandi saksa klassikale omane range värsimõõt (aleksandriin) ja paarisriim. Samuti kopeeris masin saksa keelde tooreid eesti idioome (nt "lasse alles durchgehn wie ein Sieb"), mida reaalses saksa keeles ei eksisteeri.
Sõltumatu arhiivikontroll: AI-põhiseid väiteid ei tohi kunagi kontrollida sama või teise tehisintellekti abil – mudelitel on kalduvus kasutaja kahtlusi pimesi kinnitada või parandada ühte hallutsinatsiooni teisega. (Aga seda ma hädaga just tegin, lootes siiski AI minimaalsele tervele mõistusele – siinkohal jõin klaasi külma vett – A. K).
Jah, nagu klassikalises bürokraatias, nii võivad siingi vahel mängu tulla oskuslik hämamine, vastutuse hajutamine või AI puhul koguni hallutsinatsioonide ringkäendus (!).
Väljapääs
Nõiaringist saab välja astuda ainult siis, kui mängu tuuakse AI-väline reaalsus – reaalne füüsiline raamatukogu. See on ainus viis hallutsinatsioonide ahelat läbi lõigata.
Siiski võiks üks lihtne soovitus ka AI-siseselt asja parandada: Kui uurid ajaloolisi või kirjanduslikke fakte, lisa alati lause: "Kui sul puudub selle kohta reaalne viide või allikas, siis ütle, et andmed puuduvad." See lülitab tehisaru loova poole välja ja sunnib teda jääma faktipõhiseks. Või lihtsalt anda käsk: mitte pakkuda oletusi.
Keelemudelid arenevad iga päevaga. Juba paari aasta pärast võib tehisintellekt luua Friedrich Rückerti stiilis luuletusi nii laitmatult, et me ei suuda neid reaalsest luulest pelgalt lugedes eristada. Siis jääb meile ainsaks kaitseks ja tõe kriteeriumiks raamatukogu ja akadeemiline viitamine.
Tuleb korrata: lõpliku kontrolli peab tegema inimene, pöördudes füüsiliste raamatute või ametlike digiarhiivide (nt DIGAR, antud juhul Saksa Rahvusraamatukogu andmebaasid, Project Gutenberg) poole. Kui teost "Die Weisheit des Brahmanen" digitaalselt lehekülg-leheküljelt otsida, on AI loodud ridade vasteks null.
Tehnoloogia areneb kiiresti ning tulevikus püüavad arendajad hallutsinatsioone vähendada nn RAG (Retrieval-Augmented Generation) süsteemidega, mis sunnivad masinat enne vastamist otsima kinnitatud reaalset dokumenti.
Seniks aga jääb humanitaarteaduste ja ajakirjanduse kuldreegliks: tehisintellekt on suurepärane abiline seoste otsimisel, kuid lõplik verifitseerija ja faktide kaitsja peab alati olema kriitiline inimene.
Nüüd siis juba puhtalt ajalootundide autori tekst.
Väga hea, et Rooma paavst AI ohtude teemal äsja sõna võttis, seda spetsialistide abiga loodud kaalukat läkitust kavatsen peagi huviga lähemalt uurida.
Tänan terast õhtust lugejat kiire märgukirja eest ning vabandan kõigi Heiti Talviku austajate ees, et astusin ämbrisse ning asusin tões ja vaimus poeetilisi hallutsinatsioone vahendama!
Usun siiski, et luuletaja ise poleks sellisest hallutsinatoorsest asjakäigust kuulda saades pahane, vaid saaks isegi minu ja AI üle mõnusalt naerda ning luuletaks ehk hoopis ühe parajalt krõbeda epigrammi, näiteks sellise neliku, mis sobiks muu hulgas meenutama ka äsjast Raamatuaastat, teksti autoriks nüüd tõepoolest tehisvärsitreial; kas see küünib Talviku tasemeni, jäägu lugeja otsustada:
Kui vaim on vaene, laisk ja saamatu,
siis tehisaju oma tungla läidab,
loob ilusa ja ehtsa raamatu,
mis sinu hingetühjust täiuslikult täidab.
1 See mõtteavaldus pärineb saksa kristliku müstiku Meister Eckharti traktaadist "Reden der Unterweisung" (tuntud ka pealkirja all "Reden der Unterscheidung", eesti keeles "Nõuanded" või "Õpetlikud kõned"). Tegemist on Eckharti ühe kuulsaima tsitaadiga aktiivse ligimesearmastuse ja passiivse palve suhtest. [1, 2, 3, 4, 5]
Toimetaja: Kaspar Viilup














