Keeleminutid. Digi-Tammsaare kinnipüüdmise tõde ja õigus
Eesti Keele Instituut on alates 2013. aastast kogunud veebis saadaval olevaid eestikeelseid tekste ning koondanud need kokku keelekorpuseks. Tänapäeval on korpus keele uurimisel ja kirjeldamisel ning sõnastike koostamisel asendamatu allikas. Selle aasta alguses valminud korpus sisaldab juba 3,8 miljardit tekstisõna, kirjutab EKI vanemarvutileksikograaf Kristina Koppel "Keeleminutites".
Eesti Keele Instituut on alates 2013. aastast järjepidevalt kogunud eestikeelseid (digi)tekste ning koondanud need kokku eesti keele ühendkorpuste sarjaks. Kuna instituudis tegeldakse muuhulgas tänapäeva eesti keele uurimisega, on oluline, et uurimismaterjal oleks ajakohane. Seetõttu uuendatakse ka korpuse sisu iga paari aasta tagant. Nii ongi eesti keele ühendkorpuste sarjas kümne aasta jooksul ilmunud viis versiooni. Neist uusim, 2024. aasta alguses valminud korpus on eelmisest ligi kolmandiku võrra mahukam ning sisaldab juba 3,8 miljardit tekstisõna. (Võrdluseks: kümme aastat tagasi oli korpuse maht vaid 563 miljonit tekstisõna.)
Ühendkorpus on kaasaegseim, mahukaim ja žanriliselt mitmekesiseim keeleallikas. Suures osas koosneb see erinevates meediaportaalides ja perioodikaväljaannetes avaldatud tekstidest. See ei ole üllatav, sest viimastel aastatel on mitmed neist lõpetanud paberlehe väljaandmise ning publitseerivadki vaid veebis. Palju on korpuses ka ametlikke tekste ja haldustekste, asutuste (ministeeriumid, ülikoolid, teatrid, muuseumid, era- ja suurfirmad) ja veebipoodide kodulehtedelt kogutud tekste jpm. Puudu on küll suuline ja sotsiaalmeedias kasutatav keel, mida mõnevõrra korvab blogidest ja foorumitest kogutud netikeel, millel on palju suulise keele jooni. Mõnevõrra sisaldab korpus kõrgetasemelisi teadusartikleid, eraldi jõupingutusi oleme teinud (ja teeme edaspidigi) ilukirjanduse lisamiseks ning masintõlkeliste tekstide tuvastamiseks ja eemaldamiseks.
Ilukirjanduse lisamine korpusesse ei ole niisama lihtne kui avalikus veebis olevate tekstide kogumine – kuna ilukirjandus on kaitstud autoriõigustega, tuleb pidada läbirääkimisi autorite ja/või kirjastustega. Ka vanemate, meie seast juba lahkunud autorite teoste lisamisel on omad piirid, sest nende surmast peab olema möödunud 70 aastat – täpselt nii kaua kehtib seaduse järgi autoriõigus. Lisaks võib vanade tekstide puhul peavalu valmistada nende viimine masinloetavale kujule, millega tänapäevased tekstimärgendajad hakkama peaksid saama, eriti kui arvestada seda, et 20. sajandi alguses kasutati veel palju gooti kirja.
Eelnevalt kirjeldatud murekohtadest hoolimata oleme uusimas ühendkorpuses suutnud ilukirjanduse mahtu kasvatada varasemast lausa viis korda, nüüd on seal umbes 1940 teost. Sekka oleme võtnud nii vanemat kui ka kaasaegsemat kirjandust. Vanema ilukirjanduse (aastatest 1864–1945) seas on tüvitekste (nt "Tõde ja õigus", "Mäeküla piimamees", "Põrgupõhja uus vanapagan", "Külmale maale" jm) sellistelt autoritelt nagu A. H. Tammsaare, E. Bornhöhe, E. Vilde, V. Grünthal-Ridala, A. Kitzberg, J. Liiv, F. R. Faehlmann ja C. R. Jakobson. Kaasaegsema ilukirjanduse (aastatest 2000–2023) seas on teoseid näiteks autoritelt nagu K. Ristikivi, T. Õnnepalu, A. Kivirähk, R. Kaugver, A. Ehin, J. Undusk, A. Beekman jpm. Samuti sisaldab korpus tõlgitud teoseid autoritelt E. Brontë, R. Pilcher, R. Stout, J. Austen, A. Christie, V. Woolf, U. Eco, W. Shakespeare, T. Jansson, S. King, J. K. Rowling jpt.
Rõõmustame EKI-s, et oleme suutnud eesti keelt koguda juba 3,8 miljardi tekstisõna mahus ning sealjuures kasvatanud korpuses ka ilukirjanduse osakaalu. Sõnad ega tekstid ei saa eesti keeles aga otsa, vastupidi, neid tuleb aina rohkem ja rohkem juurde. Nii loodame meiegi iga uue ühendkorpuse versiooni kasvatada aina suuremaks, tänu millele saame pakkuda veelgi rohkem ajakohast keeleinfot.
Toimetaja: Neit-Eerik Nestor