Kahe Johannese kirjad läksid masinasse

Johannes Semper
Johannes Semper Autor/allikas: EKM EKLA, A-84: 475.

Juulis ilmus Eesti Kirjandusmuuseumi teaduskirjastuses mahukas kaheköiteline väljaanne "Euroopa, esteedid ja elulähedus. Semperi ja Barbaruse kirjavahetus 1911–1940". Tähelepanu väärib, et 675 kirjast ehk umbes 1,8 miljonist tähemärgist koosnev kirjavahetus on pilootprojektina kirjandusteadlaste ja arvutilingivistide koostöös ka masinloetava ja märgendatud tekstikorpusena kõigile huvilistele KORPi keskkonnas digitaalselt kättesaadavaks tehtud.

Eesti Kirjandusmuuseumi Eesti Kultuuriloolise Arhiivi vanemteaduri, Semperi ja Barbaruse kirjavahetuse peatoimetaja Marin Laagi sõnul on erakirjavahetusel põhinev tekstikorpus esimene omataoline ettevõtmine ning võimaldab tulevikus välja töötada uuenduslikke meetodeid ja uurimissuundi kultuurilooliste andmete analüüsiks.

Eesti Keeleressurside Keskuse juhataja Kadri Videri sõnul on tegemist nii kirjanduslooliselt kui tekstilingvistiliselt huvipakkuva digitaalandmestikuga.

"Kirjandusteadlastele avab kaasaegsete digitaalsete meetodite kasutuselevõtt huvitavaid uurimisperspektiive ja vanade uurimistulemuste ülekontrollimise võimalusi arvutuslike meetoditega. Korpuslingvistidele on aga väljakutseks ajaloolise ja isikupärase keelekasutusega, erinevatest keeltest kubiseva ja rohkete koha-, aja- ja isikuviidetega tekstimaterjali ettevalmistamine rikkalikult märgendatud korpuseks," selgitas Vider.

Marin Laagi sõnul tuli KORPiga ühitamiseks kirjavahetuse käsikirjalised originaalid teisendada käsitsi masinloetavaks andmestikuks.

"Sellele lisasime kirjade metaandmed, teostasime automatiseeritud vormianalüüsi ja ühestamise Vabamorfi töövahenditega Giellatekno sõnaliikide ja grammatiliste kategooriate süsteemis," ütles Laak.

Kadri Videri sõnul on KORP korpuspäringusüsteem, mis võimaldab leida konkordantse ehk teksisiseseid kokkusobivusi või seoseid ning teha eri parameetritel põhinevat statistilist analüüsi eri viisil märgendatud korpustest.

"Selleks kasutatakse teksti meta-andmeid, näiteks autor, kuupäev ja aasta, tekstitüüp ning keelelist märgendust, näiteks lausestamine ja sõnestamine, punktuatsioon, morfoloogia, süntaks ja semantika," selgitas Vider.

Semperi ja Vares-Barbaruse kirjavahetus koosneb 310 980 sõnest ja 249 970 lemmast. "Sõne on tekstisõna ja lemma on sõnatüvi, nende eristamine korpuses võimaldab hinnata nii korpuse tekstilist mahtu kui ka sõnavara mitmekesisust selles," selgitas Vider.

Tehniliselt on KORP veebiteenus, mis kasutab avatud lähtekoodiga korpuste töötlemise vahendit MS Open Corpus Workbench ja see on loodud Göteborgi Ülikoolis Rootsi Keelepangas (Språkbanken). Videri sõnul arendatakse KORPi lisaks Rootsile veel mitmes riigis: Soomes Kielipankki, Norras Giellatekno taristu saami keelte jaoks, Taanis KORP, Islandil Risamálheildin.

"Eesti KORPi arendab Eesti Keeleressursside Keskus ja selles kättesaadavad korpused koosnevad praegu rohkem kui 850 miljonist tekstiühikust. Lisaks keeleteaduslikel eesmärkidel lisatud korpustele, mis on Eesti KORPis praegu valdavas enamuses, oleme alustanud ka kirjandusteadlaste uurimishuvidele vastavate projektidega."

Videri sõnul sobib KORPi keskkond hästi nii-öelda tundlike materjalidega tööks, kuna KORPi päringuvastuses tsiteeritud tekstilõigud on lause või lõigu pikkused ja nii ei rikuta autoriõigust ning ei ületata lubatud tsitaadi mahtu.

"Lisaks sellele on KORP avatud lähtekoodiga, paindlik ja lihtsalt õpitav süsteem, mis võimaldab graafilist ülevaadet alamkorpuste päringutulemustest, hõlpsat liikumist konkordantslausete ja laiema konteksti vahel ning ka statistika tulemuste ja näitelausete vahel, võimalusi grupeerida statistikat kõigi korpuses märgendatud kategooriate alusel, suhtelise esinemis-sageduse automaatarvutusi (miljoni korpusesõne kohta). Näitelauseid ja statistikat saab eksportida."

Marin Laagi sõnul võimaldavad päringutulemustes väljatoodud metaandmed täpselt määrata näitelause asukohta kirjavahetuses, vajadusel on võimalik tekitada link mujal hoitavatele terviktekstidele, et pöörduda tagasi algallikate juurde. Päringusüsteemi KORP kasutamine võimaldas näiteks reljeefselt välja tuua mõlema kirjaniku tegevuse rahvusvahelises kirjanike võrgustikus PEN International.

Tekstikorpus valmis Haridus- ja Teadusministeerimi institutsionaalse uurimisprojekti "Kirjanduse formaalsed ja informaalsed võrgustikud" (IUT22-2) ühe oluliseima rakendusväljundina. Eesti Kirjandusmuuseumi poolt aitas seda tööd läbi viia keeletehnoloog Kaarel Veskis, Eesti Keeleresursside Keskuse poolt konsulteerisid projekti Kadri Vider, Neeme Kahusk ja Olga Gerassimenko.

Toimetaja: Valner Valme

Hea lugeja, näeme et kasutate vanemat brauseri versiooni või vähelevinud brauserit.

Parema ja terviklikuma kasutajakogemuse tagamiseks soovitame alla laadida uusim versioon mõnest meie toetatud brauserist: