IT-rakendused humanitaarteadustes: eesti vahekeele korpus

Pille Eslon
Mart Laanpere

Tallinna Ülikooli eesti vahekeele korpus on eesti õppijakeele kirjalike tekstide kogu, millel on rida alamkorpusi, kasutajaliides, mitmetasandiline annoteerimis- ja märgendussüsteem, statistikamoodul, tekstide automaatse analüüsi võimalus jm. Kombineerides teksti erinevaid tunnuseid (nt teksti liik, sõnede arv, lausete hulk), vealiike ja metateavet õppija kohta (nt emakeel, päritolumaa, sugu, haridus, keeleoskustase) võimaldab Eesti vahekeele korpuse kasutajaliides teostada mitmetasandilisi päringuid.

Seisuga oktoober 2013 sisaldab korpus 11 720 teksti, üldmaht on 3 185 591 sõnet, teksti keskmine pikkus 272 sõnet.

Tabel. Eesti vahekeele korpuse alamkorpused.

Alamkorpus Tekstide arv Sõnede arv Teksti keskmine pikkus
K2 tuumkorpus 3 151 804 094 255
K2 riiklikud eksamitööd 7 856 1 989 844 253
K2 olümpiaadi tööd 63 58 684 932
K2 akadeemiline eesti keel 13 14 716 1132
K1 akadeemiline eesti keel* 4 3 339 835
K1 vene keel (referentskorpus) 370 209 885 567
K3 vene keel (referentskorpus) 273 101 566 372

*Alamkorpuse koostaja on Tallinna Ülikooli teaduskeele keskus (P. Nemvalts).

Korpust saab kasutada 1) empiirilist ja rakenduslikku laadi uurimistöös (nt eesti keele omandamisprotsess, Euroopa Nõukogu keeleoskustasemed, eesti keele kasutusmustrid, keele arengutendentsid); 2) tulevaste õpetajate ja lingvistide koolitamisel (nt veaanalüüs, sõna- ja vormisagedus, klasteranalüüs); 3) tegevõpetajate täiendõppes (nt kuidas keele õpetamisel korpusi kasutada, kuidas korpusandmeid kasutades hinnata keeleõpikute asjakohasust) jm.

[previous][next]