IT-rakendused humanitaarteadustes: eesti vahekeele korpus

Pille Eslon
Mart Laanpere

Tallinna Ülikooli eesti vahekeele korpus on eesti õppijakeele kirjalike tekstide kogu, millel on rida alamkorpusi, kasutajaliides, mitmetasandiline annoteerimis- ja märgendussüsteem, statistikamoodul, tekstide automaatse analüüsi võimalus jm. Kombineerides teksti erinevaid tunnuseid (nt teksti liik, sõnede arv, lausete hulk), vealiike ja metateavet õppija kohta (nt emakeel, päritolumaa, sugu, haridus, keeleoskustase) võimaldab Eesti vahekeele korpuse kasutajaliides teostada mitmetasandilisi päringuid.

Seisuga oktoober 2013 sisaldab korpus 11 720 teksti, üldmaht on 3 185 591 sõnet, teksti keskmine pikkus 272 sõnet.

Tabel. Eesti vahekeele korpuse alamkorpused.

Alamkorpus	Tekstide arv	Sõnede arv	Teksti keskmine pikkus
K2 tuumkorpus	3 151	804 094	255
K2 riiklikud eksamitööd	7 856	1 989 844	253
K2 olümpiaadi tööd	63	58 684	932
K2 akadeemiline eesti keel	13	14 716	1132
K1 akadeemiline eesti keel*	4	3 339	835
K1 vene keel (referentskorpus)	370	209 885	567
K3 vene keel (referentskorpus)	273	101 566	372

*Alamkorpuse koostaja on Tallinna Ülikooli teaduskeele keskus (P. Nemvalts).

Korpust saab kasutada 1) empiirilist ja rakenduslikku laadi uurimistöös (nt eesti keele omandamisprotsess, Euroopa Nõukogu keeleoskustasemed, eesti keele kasutusmustrid, keele arengutendentsid); 2) tulevaste õpetajate ja lingvistide koolitamisel (nt veaanalüüs, sõna- ja vormisagedus, klasteranalüüs); 3) tegevõpetajate täiendõppes (nt kuidas keele õpetamisel korpusi kasutada, kuidas korpusandmeid kasutades hinnata keeleõpikute asjakohasust) jm.

[previous][next]