Latviešu valoda Internetā un datorlingvistikas resursi

Andrejs Spektors
LU Matemātikas un informātikas institūts


Sakarā ar Interneta straujo attīstību visā pasaulē , valodas datorsistēmu attīstīšana mūsdienās kļūst par katras valodas izdzīvošanas jautājumu nākotnē. Pasaule kļūst mazāka, informācijas apmaiņas ātrums pieaug proporcionāli jauno tehnoloģiju attīstībai . Mākslīgā intelekta attīstība paplašina plaisu starp industriālajām pasaules valstīm un pārējo pasaules daļu . Cilvēces vēsture ir pierādījusi, ka zinātnes un tehnikas attīstība iespaido humanitārās sfēras jau no vissenākajiem laikiem. Kā spilgtākie piemēri šajā sakarā jāmin rakstības izgudrošana, kuras paredzamās kaitīgās sekas spilgti aprakstītas Platona dialogā " Faidrs " un iespiedtehnikas izgudrošana ar "Gūtenberga efektu" (pakāpeniska to valodu izzušana, kurās netika ieviesta un izmantota iespiedtehnika). Eiropas Savienības institūcijās jau no 90-to gadu sākuma apspriež iespējamās "otrā Gūtenberga efekta" sekas saistībā ar datoru un mākslīgā intelekta sistēmu plašu ieviešanu visās jomās, īpaši informācijas apstrādes tehnoloģijās . Arī Latvijā jau ir sācies līdzīgs process: bērni un jaunieši daudz laika pavada pie Internet monitoriem, kur piedāvātā informācija galvenokārt ir tikai angļu valodā. Rezultātā daži īpatņi (dzimuši latvieši) latviešu valodu vairs neprot lietot bez angļu valodas leksisko un gramatisko formu iestarpinājumiem. Šādu situāciju var labot tikai izstrādājot datorsistēmas latviešu valodā, kas piedāvātu pietiekoši lielus informācijas apjomus interesentiem.

Pašreiz LU MII Mākslīgā intelekta laboratorijā ar Sorosa fonda - Latvija atbalstu ir izveidota informācijas sistēma par latviešu valodu. Tā satur ziņas par latviešu valodas gramatiku latviski un angliski, pamatvārdu ( ~ 1400 vārdu ) vārdnīcu ar tulkojumiem angliski un krieviski, bilžu vārdnīcu, lietvedības terminu vārdnīcu un vēstuļu piemērus. Lielākais apjoms ir "Latviešu tautas ticējumiem", jo Interneta WWW lapās tiek ievietoti visi četri P. Šmita sastādītie ticējumu sējumi. To visu var redzēt Internetā (http://ai1.mii.lu.lv/valoda.htm) un brīvi izmantot . Turpat ir pieejama arī " Latviešu valodas vārdnīca " ( Rīga, 1987 ), kas varētu kalpot dažādiem mācību un zinātniskiem mērķiem. 1996.gada Kultūras projektu ietvaros uzsāktas veidot WWW lapas par latviešu kultūru (http://ai1.mii.lu.lv/kultura.htm). Mākslīgā intelekta laboratorijā ir izstrādātas dažādas rekomendācijas un tehniskie līdzekļi latviešu valodas lietošanai datoros. Pašreiz ir izveidots tekstu un dažādu vārdnīcu krājums ar aptuveni 10 miljonu vārdlietojumu . Izstrādāta latviešu valodas morfoloģiskās analīzes automatizēta sistēma, izveidotas vairākas specializētas elektroniskās vārdnīcas un radītas citas sistēmas, kas nepieciešamas datoru interfeisu izveidei latviešu valodā . Uzsākta latviešu valodas morfēmiskās analīzes sistēmas izstrāde, kuras darbības pašreizējie rezultāti ir sekmīgi, un tās tālākā attīstība nodrošinās latviešu valodas datorsistēmu tālāku attīstību. Izveidotie tekstu krājumi ietver dažādas pēdējo gadu laikrakstu publikācijas ( ap 6 miljoni vārdu ) , " Latviešu tautas ticējumus " ( ~ 600 000 vārdu ), Latvijas likumu tekstus ( ~ 560 000 vārdu ), Bībeli ( ~ 600 000 vārdu ), kā arī dažādus 16. un 17. gs. iespieddarbu tekstus (ap 1,6 miljoni vārdu ). Datorā ievadītas arī vārdnīcas: E. Soidas un S. Kļaviņas "Inversā vārdnīca ", kas veido latviešu valodas vārdu sarakstu (~ 35 000 ), šo vārdu tulkojumi krieviski un angliski, "Latviešu valodas vārdnīca " ( Rīga, 1987 ), " Frazeoloģiskā vārdnīca ", J. Baldunčika "Anglicismu vārdnīca", dažādas terminoloģijas vārdnīcas u.c. mazākas vārdnīcas. No K. Mīlenbaha un J. Endzelīna vārdnīcas pašreiz ir ievadīta pirmā daļa un iesākta otrās daļas ievadīšana. Izstrādāta īpašvārdu izrunas vārdnīca, kas satur 250 000 vārdu un to izrunas pierakstu starptautiskajā fonētiskajā alfabētā. Latviešu valodas tekstu bāzu un leksikonu veidošana iespēju robežās sekmīgi norisinās arī LU Baltu valodu katedrā, LZA Latviešu valodas institūtā, LZA Literatūras, folkloras un mākslas institūtā un arī citās iestādēs. Tomēr parasti tiek veikta tikai darba lingvistiskā daļa, bet nav nodrošināta saistība ar nepieciešamās programmatūras attīstību. Svarīgi būtu arī savlaicīgi sākt risināt valodas resursu standartizētas izveides, marķēšanas un vērtēšanas problēmas, kas pašreiz ir aktuālas visā pasaulē, jo valodas datorresursi tiek izstrādāti visās attīstītajās valstīs .

Mūsdienīga valodas datorfonda radīšana ietver vismaz trīs atšķirīgus aspektus: pirmkārt, vajadzīgs tehniskais un programmatūru nodrošinājums , otrkārt , vajadzīga šī fonda valodnieciskā aprūpe, un, treškārt, datorfondam ir jāatspoguļo mūsdienu reālā pasaule, tāpēc tā satura izvēle ir arī kultūrsocioloģiska problēma. Pēdējos gadu desmitos pasaulē, pateicoties lielu un daudzu zinātnisko kolektīvu pūlēm, ir strauji attīstījusies datorsistēmu izmantošana dabīgo valodu apstrādē (vispirms - angļu valodā). Dažādām valodām kopējās problēmas tiek atrisinātas galvenokārt veidojot angļu valodas datorsistēmas. Eiropas Savienības politika šajā jomā ir vērsta uz to, lai nākotnē katram Eiropas pilsonim tiktu nodrošināta iespēja runāt savā dzimtajā valodā un tikt saprastam jebkurā citā Eiropas valodā ar tehnisku līdzekļu palīdzību. Tās ir nākotnes tehniskās iespējas, bet jau šodien ir būtiski veidot šādas sistēmas arī latviešu valodā, t.sk. Internetā . Protams, katras valsts pašas uzdevums ir veidot šādu tehnisko līdzekļu iestrādes savai valodai, Eiropas Savienības projekti šajā jomā parasti ir paredzēti dažādu starpvalodu un kopējo problēmu risināšanai. Speciālisti uzskata, ka tikai sasniedzot simts un vairāk miljonu vārdlietojumu datu bāzēs, var veikt tālākos pētījumus gan valodniecībā gan datorlingvistikā. Tas ir īpaši svarīgi fleksīvām valodām, jo jārēķinās ar katra vārda visu iespējamo formu lietojumiem. Tāpēc intelektuālas datorsistēmas latviešu valodā būs iespējams sākt realizēt tikai pēc attiecīgo vārdnīcu izveides datoros un uzkrāto tekstu analīzes ar šo vārdnīcu un citu izveidoto līdzekļu palīdzību. Valodas resursu izmantošana Latvijā, tāpat kā citās Austrumeiropas valstīs pašreiz ir sākuma stadijā, tāpēc ir svarīgi savlaicīgi izstrādāt metodoloģiju jaunradīto resursu marķēšanai un vērtēšanai, tādējādi nākotnē ietaupot līdzekļus kļūdu novēršanai un standartizācijai. Vienlaicīgi tiks pārbaudīta standartu un rekomendāciju praktiska pielietojamība latviešu valodā, kura atšķiras no angļu un citām Rietumeiropas valodām ar savu fleksivitāti. Latviešu valodas īpatnībām atbilstošu risinājumu meklējumi tad arī ir mūsu tuvākais mērķis.

Vispirms sīkāk pievērsīsimies problēmas datortehnoloģiskajam aspektam un formulēsim nepieciešamos uzdevumus programmnodrošinājuma izstrādē latviešu valodas datorfonda automatizētai izveidei. Tie ietver galvenās šodien apzinātās problēmas, kuras jāatrisina, lai varētu efektīvi veikt datorfonda izstrādi un nodrošinātu tā lietderību dažādiem speciālistiem.

Latviešu valodas burtu optiskās atpazīšanas programmu izstrāde ir nepieciešama, lai datoros varētu ievadīt lielu daudzumu latviešu valodas tekstu. Būtu vēlams sasniegt vismaz 98 % ievadīšanas precizitāti, kas gan nav ideāla, bet no šodienas viedokļa nav iespējams ieraudzīt metodes, kuras ļautu sasniegt augstāku precizitāti. Uzdevuma izpildei vispirms nepieciešams apzināt un izpētīt eksistējošās burtu optiskās atpazīšanas metodes un algoritmus. Pēc tam varētu sākt tās pielāgot latviešu valodas diakritisko zīmju atpazīšanai un izstrādāt sistēmas prototipu, kas gan vēl nenodrošinās vajadzīgo precizitāti, bet uz tā pamata varētu notikt sistēmas pilnveide un mašīnapmācība. Tālāk jāparedz arī latviešu burtu atpazīšanas programmas apvienošana ar pareizrakstības pārbaudītāju, lai daļu no ievadkļūdām varētu novērst jau ievadīšanas procesā. Tomēr šādam darbam nevar izmantot pašreizējos latviešu valodas pareizrakstības pārbaudītājus, kas pārbauda tikai uzrakstītās vārdformas pieļaujamību, bet nepārbauda locījumu saskaņotību teikumā. Tikai pēc teikuma analīzes u. c. sistēmu izstrādes varēs automatizēt tekstu ievadīšanas procesu.

Būtu vajadzīgs uzsākt Internetā pieejamo latviešu preses izdevumu automatizētu primāro apstrādi un marķēšanu. Vispirms ir nepieciešams esošos rakstus pārveidot vienotā latviešu valodas rakstības standartā, jo dažādos preses izdevumos vēsturiski ir izstrādāti dažādi datorizdevniecības tehnoloģiskie procesi, kā rezultātā elektroniskie tekstu masīvi neatbilst spēkā esošajiem Latvijas standartiem. Saprotams, ka izmaiņas izdevniecības tehnoloģiskajā procesā ne vienmēr var veikt īsā laika posmā, tāpēc var sagaidīt ilgstošu iepriekšējo kodu tabulu izmantošanu. Tā kā datorfonds jāveido atbilstoši spēkā esošajiem standartiem, tad nepieciešams izstrādāt automatizētus rīkus tekstu apstrādei. Nezināmu tekstu automātiska analīze, valodas un kodu tabulas identifikācija būs nepieciešama ļoti lielu, nepazīstamu teksta masīvu primārajai apstrādei. Saņemot lielus teksta masīvus no dažādām redakcijām, datorfonda darbinieki iepriekš nezina, kāda kodu tabula ir izmantota katra teksta rakstīšanai, vai tā ir viena un tā pati kodu tabula. Ne vienmēr būs zināms, kādā valodā ir rakstīts attiecīgais raksts. Tomēr katrā valodā ir cits burtu biežuma profils, kuru var izmantot attiecīgās valodas atpazīšanai jau sākot no dažiem simtiem vārdu. Faktiski latviešu valodā pietiek apskatīt tikai burtus ar diakritiskajām zīmēm, un jau pēc to biežuma var viegli noteikt teksta rakstīšanai izmantoto kodu tabulu. Tādas pašas metodes var pielietot igauņu, lietuviešu un citās valodās rakstīto tekstu kodu tabulu identificēšanai. Tālākā datorfonda izveide prasīs automatizētas marķēšanas programmatūras izstrādi atsevišķu rakstu, to autoru un virsrakstu marķēšanai. Palielinoties datu apjomam Internetā, ir nepieciešams radīt rīkus automatizētai elektronisko preses izdevumu kataloga sastādīšanai, lai datorfonda vajadzībām varētu atlasīt preses izdevumu rakstus pēc autoriem un rakstu nosaukumiem.

Latviešu valodas teikumu marķēšanai vispirms nepieciešama algoritmu izstrāde dažādu latviešu valodas teikumu robežu viennozīmīgai identifikācijai. Teikumu marķēšana ir viens no primārajiem nosacījumiem datorfonda tālākai izmantošanai pētnieciskiem u. c. nolūkiem. Programmrīki, kas paredzēti teikumu marķēšanai, dažādās valodās atšķiras atkarībā no attiecīgās valodas pareizrakstības īpatnībām pieturzīmju lietošanā. Nepieciešama automatizēta teikuma analīze , teikuma locekļu identifikācija un marķēšana paredzot automatizētu rīku izstrādi šo darbu veikšanai . Sākumā jāizstrādā algoritmi teikuma tipa (vienkāršs, paplašināts, salikts, u.t.t.) noteikšanai, kas pēc attiecīgo programmrīku izveides ļautu automātiski sakvalificēt datorfondā esošos teikumus pa tipiem . Morfosintaktiskā analīze un marķēšana paredz automatizētu rīku izstrādi visu datorfondā sastopamo vārdu vārdšķiras identifikācijai, kas ir īpaši grūta problēma fleksīvām valodām. Pašreiz Mākslīgā intelekta laboratorijā ir izstrādāta morfēmiskās analīzes programmatūra, kas ļauj automātiski analizēt tekstā sastaptos vārdus un noteikt to sastāvdaļas. 90 % gadījumu tiek sniegta pareiza atbilde. Apmēram 7% no atlikušajiem 10 % vārdu satur īpašvārdus un salikteņus ar vairāk nekā divām saknēm. Lai sasniegtu vēl augstāku precizitāti vārdformu identifikācijā, paredzēta šīs morfēmiskās analīzes programmatūras pilnveide. Paredzēts izstrādāt atsevišķas programmas īpašvārdu un daudzsakņu salikteņu analīzei, kuru darbība kopējā programmatūrā būs paredzēta tikai gadījumos, ja iepriekšējās analīzes rezultāti būs nesekmīgi un tiks prognozēta attiecīgās grupas vārda klātbūtne. Tomēr tas vēl nedos pilnīgu precizitāti, tāpēc nākošajā solī paredzēta atsevišķu vārdšķiru identifikācijas algoritmu izstrāde, kas ļautu apstrādāt dažādus izņēmumu sarakstus . Tālāk paredzēta programmatūras izstrāde lietvārdu un darbības vārdu identifikācijai , kā arī homonīmu analīzei un marķēšanai. Analizējot katra šāda vārda apkārtni (kontekstu), tiks meklētas pazīmes, kas ļaus noteikt arī tā semantisko nozīmi. Homoformu analīze un marķēšana paredz tādas programmatūras izstrādi , kas ļaus viennozīmīgi identificēt vārdformas, kas tiek vienādi rakstīti, bet ir tā paša vārda dažādas gramatiskās formas. Tiks izstrādāta metodika un algoritmi homoformu identifikācijai teikuma analīzes rezultātā. Lemmatizācijas programmas latviešu valodai paredz izstrādāt programmnodrošinājumu, kas katru tekstā sastapto vārdu reducētu uz tā pamatformu.

Konteksta analīze un frazeoloģismu marķēšana paredz metodikas, algoritmu un programmnodrošinājuma izstrādi šo funkciju veikšanai. Datorlingvistiskajos pētījumos bieži ir nepieciešams zināt ar kādiem vārdiem kopā tiek lietots dotais vārds vai vārdu savienojums un kādi ir to lietojuma biežuma rādītāji. Šādu zināšanu nepieciešamība var rasties arī mākslīgā intelekta sistēmu izstrādē, mašīntulkošanā un teikumu sintēzē. Vienlaicīgi būs jāizstrādā arī līdzekļi dažādu frazeoloģismu marķēšanai, kas ļaus veikt dažādus to pētījumus. Paralēlo korpusu (kas satur vienādus tekstus divās vai vairāk valodās) analīzes un marķēšanas programmnodrošinājums paredz izstrādāt metodiku, algoritmus un programmnodrošinājumu šāda tipa uzdevumu risināšanai. Saņemot no redakcijas divās valodās iznākošas avīzes rakstu tekstus, datorfondā ir jāatrod savstarpējā atbilstība starp šiem tekstiem, lai varētu tos izmantot, teiksim tulkotāja palīglīdzekļu izstrādei. Šāda veida teksti ir nepieciešami atsevišķu mašīntulkošanas uzdevumu risināšanai, nodrošinot sistēmai piemēru bibliotēku zinību apguvei . Pašlaik tiek saņemti Rīgas Balss teksti, kuru apstrādes līdzšinējā pieredze rāda, ka savstarpēji atbilstošo tekstu meklēšana ir ļoti darbietilpīgs process .

Runas korpusa izveide un marķēšana paredz iztrādāt metodiku , algoritmus un programmnodrošinājumu šo korpusu apkalpei . Pašreiz ir izveidota latviešu valodas īpašvārdu izrunas datu bāze , kura šī projekta izpildes pirmajā gadā tiks papildināta ar atsevišķu morfēmu izrunas pierakstiem. Lai sekmētu ātrāku datu uzkrāšanu, nepieciešams pilnveidot fonētiskā pieraksta datu bāzes automatizētās apkalpes programmnodrošinājumu. Runas korpusa veidošanai nepieciešams izveidot latviešu valodas morfēmu fonētisko datu bāzi, kas nākotnē tiks izmantota tādu sistēmu izstrādei, kas rakstītu tekstu pārveido runā, un tiek plānota latviešu valodas fonēmu datu bāzes izveide, kas būs nepieciešama runas atpazīšanai.

Tālāk par latviešu valodas datorfonda filoloģiskajiem aspektiem un saturisko aizpildījumu. Vispirms nepieciešama sadarbība ar izdevniecībām elektronisko tekstu izmantošanā. Mūsdienās lielākā daļa iespieddarbu tiek sagatavota ar datoru palīdzību, tāpēc tekstu ierakstīšanas process datoru informācijas nesējos notiek jau pirms iespieddarba iznākšanas no tipogrāfijas. Būtu pareizi, ja datorfonds varētu saņemt jau izdevniecību sagatavotos tekstus. Daudzās Eiropas valstīs šāda procedūra tiek nodrošināta jau ar likumu. Tomēr mūsu sabiedrībā tas vēl nav izplatījies, tāpēc jāmeklē ceļi, kā saglabāt tekstus elektroniskā formā, jo dažviet pēc iespieddarba iznākšanas, elektroniskais ieraksts tiek vienkārši nodzēsts, lai attiecīgos informācijas nesējus izmantotu citiem mērķiem. Vispirms nepieciešama latviešu valodas elektronisko tekstu krājumu apzināšana un tipveida juridisko dokumentu izstrāde. Diemžēl jāatzīst, ka Latvijā nav speciālistu, kas varētu šo darbu veikt, jo te būtu nepieciešams apvienot filoloģiskās un juridiskās zināšanas. Tāpēc šī darba izpilde var būt ilgstošs process. Tālāk nepieciešama metodikas un kritēriju izstrāde tekstu atlasei no izdevniecībām, kas nodrošinātu datorfondu ar kvalitatīviem tekstiem visos aspektos, nevis aizpildītu to ar mūsdienu ''sēnalu literatūru'', īpaši tulkojumos. Pēc tam jāveic metodikas un tehnoloģiju izstrāde dažādu elektronisko tekstu konvertēšanai uz kopēju glabāšanas formātu, jo katra izdevniecība var izmantot atšķirīgu tehnoloģiju savu iespieddarbu sagatavošanai. Ļoti interesants darbs būs Saeimas sēžu stenogrammu analīze un marķēšana. Parlamenta sēžu stenogrammas ir gandrīz vienīgais ''dzīvās valodas'' pieraksta veids, kas visur tiek izmantots arī datorfondos . Latvijā Saeimas sēžu stenogrammas ir brīvi pieejamas Internetā, tāpēc nav speciāli jāorganizē to sagāde. Nepieciešams tikai detalizētāk iepazīties ar šo stenogrammu struktūru, lai uzsāktu stenogrammu marķēšanu pēc runātājiem. Sākotnēji teikumu marķēšana stenogrammās būs jāveic ''ar rokām'', un, tikai apgūstot visas šo tekstu īpatnības, varēs sākt programmnodrošinājuma izstrādi šī darba automatizācijai.

Balansētam korpusam būtu jāatspoguļo visdažādākie valodas lietojuma žanri, tāpēc jāsāk ar metodikas un kritēriju izstrādi tekstu klasifikācijai. Darbs, acīmredzot, būs jāveic vairākās iterācijās, izstrādāto metodiku un kritērijus vajadzēs vairākkārtīgi apspriest plašākā sabiedrībā, lai nodrošinātu augstāku kvalitāti. Tāpat jāveic arī literāro darbu atlases kritēriju izstrāde, arī šeit kritērijus galīgā variantā varēs izvēlēties tikai pēc apspriešanas plašākā sabiedrībā. Viens no apspriešanas veidiem varētu būt izstrādāto kritēriju publicēšana Internetā, bet tad daudzi Latvijas sabiedrisko zinātņu speciālisti var nesaņemt šo informāciju . Tāpēc jādomā arī par citiem publiskās apspriešanas veidiem. Jāatzīmē, ka darbu atlasē daudz kas var būt atkarīgs arī no izdevniecību ieinteresētības sadarbībā ar datorfondu, tāpēc atlases kritēriji jāizstrādā tā, lai paliktu izvēles iespējas starp dažādām izdevniecībām. Latvijā pašreiz ir izdevies atrast tikai laikrakstu Rīgas Balss, kas iznāk latviešu un krievu valodā un vienā no valodām publicē raksta tulkojumu. Laikrakstam Diena ir atsevišķas latviešu un krievu redakcijas, un tur tulkojumi ir daudz grūtāk atrodami, kaut gan noteikti ir. Līdzšinējā sadarbība ar Rīgas Balss redakciju norisinās tādā veidā, ka laikraksta elektroniskais arhīvs apmēram reizi trijos mēnešos tiek ierakstīts disketēs, kuras saņem Mākslīgā intelekta laboratorija . Lai gan teksti ir sagrupēti pa mēnešiem, un katram tekstam ir redzams tā saglabāšanas datums, tomēr raksta tulkojumu meklēšana, kā jau minēts, prasa lielu darbu. Tā kā ne visus tekstus izdosies saņemt no izdevniecībām, un vajadzētu veidot arī literatūras klasikas daļu datorfondā, tad kāda daļa no tekstiem būs jāievada ar rokām. Ar rokām ievadāmie teksti tiks speciāli atlasīti un to ievadīšanas lietderība būs jādiskutē gan izpildītāju kolektīvā, gan arī konsultējoties ar citiem speciālistiem. Tekstu ievadīšanas procesā, neapšaubāmi, tiks pieļautas kļūdas, kuru novēršana prasīs papildus darbu. Ievadot tekstus ar rokām (klaviatūru ) un skeneri, pieļautās kļūdas būs dažādas. Tāpēc abos gadījumos nepieciešama atsevišķa ievadīšanas kļūdu analīze un klasifikācija, kas sākotnēji jāveic cilvēkam. Pēc zināma laika, uzkrājoties pietiekoši lielam statistiskajam materiālam, varēs ķerties pie metodikas un algoritmu izstrādes tipisko ievadīšanas kļūdu automātiskai kontrolei un koriģēšanai. Izstrādātā metodika un algoritmi tālāk tiks izmantoti attiecīga programmnodrošinājuma izstrādei, kuru, apvienojot ar pareizrakstības pārbaudes un teikuma analīzes programmatūrām, varētu iegūt kvalitatīvus līdzekļus ievadkļūdu automātiskai koriģēšanai.

Kopumā mums būtu nepieciešams pietuvināt latviešu valodas datorlingvistiskos resursus Eiropas Savienības valstu ( valodu ) līmenim. Tikai strādājot šo darbu jau šodien, mēs varam cerēt saglabāt savu valodu arī nākotnes pasaulē .


Latviešu valoda starptautiskajā datortīklā WWW