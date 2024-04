Eesti keele ühendkorpus on kaasaegseim ja žanriliselt mitmekesiseim eestikeelsete digitekstide kogu. 2024. aasta alguses valmis ühendkorpuste sarjas viies ja seni mahukaim versioon, mis sisaldab 3,8 miljardit tekstisõna. Selliseid hiiglaslikke keeleandmeid on keeleteadlastel vaja selleks, et keelt uurida ja kirjeldada.

Ühendkorpus – nagu selle nimigi viitab – ühendab endas mitmeid erinevaid tekstikogusid. Seal on meediatekstide, akadeemiliste tekstide, eestikeelse Vikipeedia ning muude eripalgeliste tekstide kõrval ka varasemast oluliselt rohkem ilukirjandust. Kahe aasta taguse versiooniga võrreldes on ilukirjanduse osakaal ühendkorpuses kasvanud lausa viis korda, sisaldades nüüd umbes 1900 teost.

Nende teoste seas on nii ilukirjandust kui ka muud kirjandust, nii originaaltekste kui ka tõlkeid. Seal on romaane ja lühijutte, anekdoote ja följetone, lasteraamatuid ja muinasjutte, reisikirju ja reisijuhte, töövihikuid ja õpikuid jpm. Oleme korpusesse lisanud ka teoseid aastatest 1864–1945, sealhulgas nt autoritelt Anton Hansen Tammsaare, Eduard Vilde, August Kitzberg ja Johannes Barbarus. Kaasaegsemat ilukirjandust on aastatest 2000–2023, sealhulgas nt autoritelt Tõnu Õnnepalu, Merle Karusoo, Andres Ehin ja Leelo Tungal. Tõlgetena on ühendkorpuses esindatud ka näiteks Agatha Christie, William Shakespeare, Tove Jansson, J. K. Rowling jpt. Seega võib öelda, et ühendkorpuses ajab oma tõde ja õigust taga ka Harry Potter.

Kuigi ühendkorpuses sisalduvad 1900 teost on rohkem kui näiteks minu koduses raamatukogus, on see eesti keeles avaldatud raamatutest siiski väga väike osa. Nimelt ilmub neid aasta jooksul umbes 3400. Teeme Eesti Keele Instituudis pidevalt tööd selle nimel, et eri kirjastustes avaldatud kullavaramu jõuaks ühendkorpuse kaudu ka eesti keele uurijate töölauale.

