Projekta apraksts

1. Projekta saturs.

Projekta " Latviešu valoda starptautiskajā datortīklā WWW " mērķis ir radīt iespēju datortīkla lietotājiem visā pasaulē iepazīties ar latviešu valodu un apgūt tās pamatzināšanas . Vienlaicīgi sistēma ļautu interesentiem ar priekšzināšanām papildināt latviešu valodas zināšanas , kā arī pārbaudīt savas zināšanas neskaidrajos jautājumos . Nākotnē sistēmu varētu papildināt arī ar jebkuru citu informāciju kā par latviešu valodu , tā arī par Latvijas kultūru un mākslu .

Starptautiskā datortīkla WWW ( World Wide Web ) informatīvo sistēmu izveide pašreiz strauji attīstās visā pasaulē un ir attiecīgās tautas attīstības un kultūras spogulis vismodernākajā mūsdienu tehnoloģijā . Tā ir ļoti plaša kultūrizglītojoša vide , kur interesenti var iepazīties ar plašu informāciju dažādās jomās . Arī kultūras un mākslas informācija ir plaši pārstāvēta datortīklā , tāpēc ir pēdējais laiks izveidot latviešu valodas informācijas sistēmas un padarīt tās pieejamas šajā vispasaules zinību krātuvē . Jāatzīmē , ka pasaulē nav plašākas auditorijas , kā WWW datortīkls , kas turklāt ir samērā lēts informācijas avots . Arī Latvijā šī tīkla iespējas ir pietiekoši plašas , lai to varētu izmantot iedzīvotāji . Svarīgi atzīmēt , ka datortīkla WWW resursi ir brīvi kopējami , kas vēl vairāk paplašina potenciālo lietotāju loku .

Savlaicīga latviešu valodas sistēmu izveide datortīklā palīdzētu uzlabot mūsu valodas situāciju starptautiskajā vidē nākotnē, jo tādējādi tā ievērojami ātrāk kļūs pazīstama pasaules inteliģences aprindās . Pašreiz eksistē tikai dažas nelielas Austrālijā un ASV izveidotas WWW lapas , kas sniedz informāciju par latviešu valodu . Pēc šo lapu statistikas datiem , interese par šo jautājumu ir pietiekoši liela , lai varētu apgalvot , ka šāda informācija ir ļoti vajadzīga daudziem cilvēkiem dažādās vietās visā pasaulē . Pašreiz eksistējošās informācijas lappuses par latviešu valodu ilgāku laiku nav papildinātas ar jaunu informāciju , lai gan izstrādātāji bija solījušies to darīt . Šis fakts norāda , ka darba apjoms ir lielāks , nekā to var paveikt tikai ar entuziasmu .

Projekta izpildes gaitā paredzēts izveidot vairāk kā 500 nosacīto informācijas lappušu datortīklā WWW . Šajā sistēmā lappuses var saturēt ļoti dažādu informācijas apjomu , bet mūsu gadījumā tās vidēji nav paredzētas mazākas par grāmatas lappusi . Tās saturēs informāciju par latviešu valodu , alfabētu , izrunu , gramatiku , pamatvārdu un paplašinātas vārdnīcas , dažādus tekstu paraugus , kā arī apmācību kursu . Pamatvārdu vārdnīcas lietvārdu skaidrojumi tiks doti arī attēlu vārdnīcas veidā . Šādas sistēmas darbības uzturēšanai nepieciešams atsevišķs dators , kurš netiek noslogots ar citiem darbiem . Attēlu ievadīšanai sistēmā ir vajadzīgs skaneris . Tāpat atsevišķus tekstu materiālus paredzēts ievadīt ar skaneri , kas gan prasīs papildus darbu kļūdu novēršanā . Attēliem tiks izstrādāti gan zīmējumi , gan arī tiks izmantoti fotoattēli . Arī apmācībām fotoattēli būs noderīgi , tāpēc projektā paredzēti līdzekļi fotomateriāliem un attēlu izgatavošanai . Jāatzīmē , ka daudzos gadījumos tiks ievietoti paaugstinātas kvalitātes fotoattēli , ko var panākt tikai , iepriekš izgatavojot palielinātu fotoattēlu , kas , protams , prasa arī papildus līdzekļus . Vienlaicīgi šādai fotoattēlu uzkrāšanai ir nepieciešami lieli informācijas glabāšanas apjomi , tādēļ projektam nepieciešamo datoru jāapgādā ar pietiekoši lielu ārējo disku atmiņu . Jāatzīmē , ka sākotnējā iecerē šajā projektā bija paredzēts ietvert arī latviešu valodas apmācības sistēmas izstrādi , bet projekta pieteikuma izstrādes gaitā kļuva skaidrs , ka lielā apjoma dēļ , tehniski nav iespējams apvienot šos darbus vienā projektā .

Darba sākuma stadijā tiks izstrādāti speciāli palīglīdzekļi dažādu datorsistēmu lietotājiem latviešu rakstības ( burtu grafisko attēlu ) izvēlei neatkarīgi no konkrētās sistēmas . Papildus līdzekļi tiks izstrādāti priekš tiem lietotājiem , kuri kā pamatvalodu vēlēsies izmantot krievu valodu .

Šāda projekta izpilde nebūtu iespējama bez daudzu citu projektu rezultātu izmantošanas . Pamatzināšanas par latviešu valodas datorsistēmu izstrādi tika iegūtas gan Latvijas Zinātnes Padomes finansētajos grantos , Sorosa Fonda - Latvija un Eiropas Savienības konkursa COPERNICUS projektos . Šajā projekta pieteikumā tiek lūgti līdzekļi galvenokārt zināšanu ievietošanai datortīklā WWW un ar to saistītajām problēmām .

2. Paredzamā gala rezultāta formulējums un apraksts.

Projekta izstrādes rezultātā būs izveidota latviešu valodas informatīvā sistēma starptautiskajā datortīklā, kura sastāvēs no 14 nodaļām .

1. " Informācija par latviešu valodu: alfabēts un izruna " , kurā angļu valodā tiks sniegts īss latviešu valodas apraksts , paskaidrots alfabēts un izruna , izmantojot starptautisko fonētisko alfabētu un angļu valodas vārdu izrunu paskaidrojumos.

2. " Gramatikas pamatprincipu apraksts ", kurā vairākās WWW lapās latviešu un angļu valodā tiks sniegta informācija par dažādiem latviešu valodas gramatikas jautājumiem .

3. "Pamatvārdu vārdnīca ( latviešu , angļu , krievu )" , kurā būs doti vairāk kā 1000 latviešu valodas biežāk lietojamie vārdi un to tulkojumi angliski un krieviski .

4. " Lietvedības terminu vārdnīca trīs valodās ", kurā būs doti lietvedības termini latviešu valodā ar tulkojumiem angliski un krieviski.

5. "Izrunas paraugi , dialekti" sniegs biežāk sastopamo vārdu un frāžu izrunas paraugus skaņu ierakstu veidā , kā arī paskaidrojumus par latviešu valodas dialektiem un atsevišķu burtu dažādo izrunu .

6. "Bilžu vārdnīca" sniegs priekšmetu attēlus , tādējādi iespēju robežās paskaidrojot daļu no "Pamatvārdu vārdnīcā" sastopamajiem vārdiem . Paskaidrojumiem tiks izmantoti galvenokārt latviešu lietišķās mākslas priekšmeti , tādējādi popularizējot latviešu kultūru un mākslu .

7. "Spēles latviešu valodas apguvei" sniegs iespēju iepazīties ar valodu interaktīvu spēļu veidā , kā piem., minot krustvārdu mīklas u.c. Spēles būs paredzētas dažādiem zināšanu un interešu līmeņiem .

8. "Tipisko frazeoloģismu vārdnīca ( latviešu , angļu , krievu )", kurā būs vairāk kā 1000 latviešu valodas frāzes ar tulkojumiem angļu un krievu valodās .

9. "Mūsdienu tekstu piemēri" , kurā pieejamie teksti no laikrakstiem un citiem avotiem ļaus pietiekoši sagatavotiem interesentiem atrast piemērotas teikumu konstrukcijas un citas nianses reālos valodas tekstos .

10. "Latviešu tautas ticējumi" saturēs prof. P. Šmita apkopoto ticējumu četru grāmatu pilnu tekstu ( 36 790 ticējumi ) .

11. "Tautas dziesmu izlase" saturēs vairāk kā 1500 tautas dziesmu paraugus par dažādām tēmām .

12. "Vēstuļu piemēri privātai un lietišķai sarakstei" , kurā interesenti varēs atrast vēstulēs izmantojamas frāzes , kā arī vēstuļu paraugus dažādiem gadījumiem .

13. "Latviešu valodas skaidrojošā vārdnīca" saturēs vairāk kā 15 000 latviešu valodas vārdus ar to nozīmes un lietojumu skaidrojumiem latviešu valodā.

14. "Apmācību metodika" saturēs paskaidrojumus angļu un krievu valodās izstrādāto latviešu valodas materiālu izmantošanai valodas zināšanu papildināšanai .

3. Darba mērķi un nepieciešamības pamatojums.

Darba mērķi ir:

1) izstrādāt informācijas sistēmu par latviešu valodu un padarīt to pieejamu starptautiskajā datortīklā WWW , radot iespēju datortīkla lietotājiem iepazīties ar latviešu valodu un dažiem citiem latviešu kultūras un mākslas aspektiem;

2) izveidot latviešu valodas datorresursu fondu , kas būtu publiski pieejams no jebkuras pasaules malas ;

3) popularizēt latviešu valodu , kultūru un mākslu visplašākajai auditorijai ;

4) aktivizēt latviešu kultūras un mākslas atspoguļošanu mūsdienu tehniskajos līdzekļos ;

5) radīt priekšnoteikumus plašākai latviešu kultūras un mākslas atspoguļošanai starptautiskajā datortīklā ;

Šādas izstrādes nepieciešamība pamatojas uz to , ka līdz šim datortīklos nav radīti informācijas krājumi par latviešu valodu , kā arī citiem kultūras un mākslas jautājumiem . Datortīklu attīstības tempi un piedāvātās iespējas liecina par to , ka netālā nākotnē šis informācijas izplatīšanas veids kļūs par vienu no galvenajiem , tādējādi savlaicīga iesaistīšanās šajā apritē būtu nozīmīgs solis latviešu valodai un kultūrai.

4. Iestrāde.

Latvijas Universitātes Matemātikas un informātikas institūta Mākslīgā intelekta laboratorija kopš 1988. gada nodarbojas ar latviešu valodas datorlingvistisko uzdevumu risināšanu . Notiek latviešu valodas vēsturisko un mūsdienu tekstu uzkrāšana un statistiskā analīze . Kopš 1991. g. laboratorija pievērsusies lietvedības frāžu ģenerēšanai , ir veikti mašīntulkošanas eksperimenti , mēģinot pārtulkot lietvedības dokumentus.

Aizsākta latviešu valodas gramatikas datorizēta izpēte . Izstrādāta programma latviešu valodas lietvārdu un īpašības vārdu locīšanai , kā arī atrasti locīšanas izņēmumi , izmantojot pieejamās latviešu valodas vārdnīcas . Tāpat tika uzrakstīta programma darbības vārdu konjugēšanai . Latviešu valodā darbības vārdam ir trīs pamatformas , kas tiek izmantotas darbības vārda konjugēšanā : nenoteiksmes , tagadnes laika un pagātnes laika forma . Tika mēģināts izstrādāt likumu sistēmu , kā no pagātnes laika formas iegūt nenoteiksmes un tagadnes laika formu . Bez tam tika izstrādāta morfoloģiskās pareizrakstības pārbaudes programmatūra un programmas , kas sadala vārdus zilbēs un morfēmās .

1993. g. izstrādāts projekts " Datorizētas latviešu valodas zināšanu bāzes izstrādāšanas metodes un programmlīdzekļi " ( ar Sorosa fonda - Latvija finansiālo atbalstu ), kurā atsegti tradicionālo zināšanu apguves metodes trūkumi . 1994. - 95. gg. darbs turpinājās pie projekta "Automatizēta latviešu valodas lingvistisko zināšanu sintēze ". Šajā darbā galvenā uzmanība tika pievērsta iespējām no morfoloģiskās informācijas iegūt zināšanas par latviešu valodas sintaksi. Tika izpētītas vairākas metodes , piem., latviešu valodas morfēmiskā modeļa pielietojamība .

1995. g. tika uzsākts kopprojekts ar Stokholmas universitāti ( prof. B. Kangere ) "Latviešu valodas tekstu automatizēta morfēmiskā analīze ", lai izstrādātu likumus automatizētai morfēmu atpazīšanai latviešu valodas vārdformās ( bez vārdnīcu palīdzības ). Šajā projektā tiek izmantotas latviešu valodas vārddarināšanas principu iekšējās regulas.

Kopš 1993. gada tiek veidots eksperimentāls mašīntulkošanas sistēmas modelis . Šis projekts guvis Latvijas Zinātnes Padomes finansiālo atbalstu. Tajā ietilps tulkošana gan angļu - latviešu , gan latviešu - angļu valodās. Modelis tiek veidots kā sistēma ar starpvalodu, izmantojot mašīntulkošanas sistēmas SWETRA ( Lunda , Zviedrija ) idejas .

1995. g. tika aizsākts zinātnisks kopprojekts " ONOMASTICA - COPERNICUS. Centrālās un Austumeiropas daudzvalodu izrunas vārdnīca ", kurā tiek izstrādāta latviešu valodas izrunas leksikona datu bāze.

Mākslīgā intelekta laboratorija piedalās COPERNICUS saskaņotajā akcijā " Viseiropas valodas resursu infrastruktūra ".

5. Metodoloģija. Uzdevumu sadalījums darba grupā .

Projekta izstrādes gaitā darbu metodiski paredzēts organizēt vairākos virzienos:

1. Tekstu sagatavošana (A. Spektors un studenti)

2. Datorprogrammu izstrāde un WWW lappušu izveide (U. Sarkans)

3. Latviešu valodas gramatikas datorlīdzekļu izstrāde (I. Greitāne)

4. Vārdnīcu sagatavošana (U. Sarkans, I. Greitāne)

5. Vizuālo materiālu sagatavošana (U. Šneidere)

6. Apmācības metodikas izstrāde (A. Spektors, U. Šneidere)

6. Projekta īstenošanas secība.

1. Informācija par latviešu valodu: alfabēts un izruna 1. mēn.

2. Latviešu rakstība dažādām datorsistēmām 2. mēn.

3. Gramatikas pamatprincipu apraksts (latviski un angliski) 3. mēn.

4. Pamatvārdu vārdnīca (latviešu, angļu, krievu) 5. mēn.

5. Lietvedības terminu vārdnīca 7. mēn.

6. Izrunas paraugi , dialekti 4. mēn.

7. Bilžu vārdnīca 12. mēn.

8. Spēles latviešu valodas apguvei 12. mēn.

9. Tipisko frazeoloģismu vārdnīca (latviešu, angļu, krievu) 9. mēn.

10. Mūsdienu tekstu piemēri 10. mēn.

11. Latviešu tautas ticējumi 12. mēn.

12. Tautas dziesmu izlase 8. mēn.

13. Vēstuļu piemēri privātai un lietišķai sarakstei 6. mēn.

14. Latviešu valodas skaidrojošā vārdnīca 11. mēn.

15. Apmācības metodikas izstrāde 12. mēn.

Projekta pieteicējs A. Spektors