Lietuvių kalba DI technologijose

Ekonomikos ir inovacijų ministerijos (EIMIN) iniciatyva įgyvendinami lietuvių kalbos projektai, kuriais kuriami lietuvių kalbos skaitmeniniai ištekliai, reikalingi DI sistemų kūrimui ir vystymui lietuvių kalba.
Įgyvendinami projektai apima įvairių tipų lietuvių kalbos duomenynų kūrimą: tekstynus, garsynus, neuroninius kalbos modelius bei specializuotus kalbinius rinkinius medicinos, gynybos, švietimo ir kitoms sritims.
Lietuvių kalbos projektai yra strategiškai svarbūs Lietuvos skaitmeninei ateičiai, nes jie sudaro pagrindą pažangių DI sprendimų kūrimui lietuvių kalba. Sukurti ištekliai padeda gerinti automatizuotų vertimo, balso atpažinimo, virtualių asistentų, dokumentų analizės ir kitų DI paslaugų kokybę.
Duomenynai yra viešai prieinami ir nemokami, todėl jais gali naudotis tiek viešasis sektorius, tiek verslas, universitetai ar startuoliai. Ši iniciatyva prisideda prie lietuvių kalbos išsaugojimo skaitmeninėje erdvėje ir stiprina Lietuvos konkurencingumą dirbtinio intelekto srityje.
Duomenynus rasite čia.
Lietuvių kalbos garsyno vystymas (šnekos atpažinimo tikslams)
Projektu „Lietuvių kalbos garsyno vystymas (šnekos atpažinimo tikslams)“ kuriamas didelės apimties lietuvių kalbos garsynas, skirtas DI sprendimams ir šnekos atpažinimo technologijoms vystyti, kurio vienas pagrindinių tikslų – sudaryti sąlygas kurti kokybiškas lietuviškai veikiančias balso technologijas.
Įgyvendinant projektą, kuriamas ne mažesnis kaip 10 tūkst. valandų lietuviškos šnekos garsynas, kuriame yra bent 500 skirtingų diktorių įrašai. Garsyne atsispindi įvairūs Lietuvos dialektai, šnekamosios kalbos ypatybės, taip pat nenorminė kalba bei skirtingos kalbinės situacijos.
Projektas atitinka aukštus techninius reikalavimus: įrašai jame aukštos kokybės, anotuoti ir dokumentuoti pagal tarptautinius metaduomenų standartus. Taip pat kuriama demonstracinė šnekos atpažinimo sistema, kurios žodžių atpažinimo klaidos rodiklis neviršija 20 procentų.
Šis projektas strategiškai svarbus Lietuvos DI ir kalbos technologijų plėtrai, nes lietuvių kalba dėl savo sudėtingumo ir mažos rinkos iki šiol turi ribotą pažangių kalbos technologijų palaikymą. Sukurtas garsynas yra viešai prieinamas ir gali būti naudojamas kuriant balso asistentus, automatines transkribavimo sistemas, vertimo įrankius bei kitas DI pagrindu veikiančias paslaugas lietuvių kalba.
Garsyną galite rasti čia.
„Morfologiškai ir sintaksiškai anotuotų tekstynų modeliai apmokymui“
Projektą „Morfologiškai ir sintaksiškai anotuotų tekstynų modeliai apmokymui“ įgyvendina Vytauto Didžiojo universitetas. Projektu kuriami aukštos kokybės lietuvių kalbos duomenynai, skirti DI ir kalbos technologijų sistemų mokymui: parengti 10 mln. žodžių morfologiškai ir 10 mln. žodžių sintaksiškai anotuoti lietuvių kalbos tekstynai.
Jie tampa „auksiniu standartu“ įvairių kalbos technologijų ir DI modelių apmokymui ir leidžia kompiuterinėms sistemoms tiksliau suprasti lietuvių kalbos gramatiką, sakinių struktūrą, žodžių formas ir jų tarpusavio ryšius.
Sukurti duomenynai svarbūs kuriant pažangias lietuvių kalbos technologijas: automatinius vertėjus, teksto analizės sistemas, virtualius asistentus, gramatikos tikrinimo įrankius ir kitus DI sprendimus.
Projektas prisideda prie Lietuvos skaitmeninės transformacijos, nes viešai prieinami kalbiniai ištekliai sudaro galimybes mokslui, verslui ir viešajam sektoriui kurti inovatyvias paslaugas lietuvių kalba. Projektas remiasi ankstesnių lietuvių kalbos tekstynų, tokių kaip MATAS, vystymo patirtimi ir siekia gerokai išplėsti jų apimtį bei kokybę.
Tekstyną galite rasti čia.
„Nuasmeninimo tekstyno sukūrimas“
Projektą „Nuasmeninimo tekstyno sukūrimas“ įgyvendina Vytauto Didžiojo universitetas kartu su partneriu Kauno technologijos universitetu. Projektu kuriamas ne mažesnis kaip 10 mln. žodžių lietuvių kalbos tekstynas, kuriame pažymėtos su BDAR (Bendruoju duomenų apsaugos reglamentu) susijusios įvardintos esybės: vardai, pavardės, adresai, organizacijų pavadinimai, datos, identifikavimo numeriai ir kita jautri informacija. Šis tekstynas skirtas automatizuotam duomenų anonimizavimui ir dirbtinio intelekto modelių mokymui.
Projektas aktualus, nes Lietuvoje iki šiol nebuvo lietuvių kalbos tekstyno, kuriame jautrūs asmens duomenys būtų sistemingai anonimizuoti ir pažymėti pagal BDAR reikalavimus. Tad šis projektas svarbus ne tik technologiniu, bet ir moksliniu bei visuomeniniu požiūriu.
Sukurtas tekstynas plėtoja lietuvių kalbos technologijas, tokias kaip mašininis vertimas, pokalbių robotai, šnekos atpažinimas ir dokumentų anonimizavimo sistemos. Taip pat jis prisideda prie lingvistinių tyrimų, viešojo sektoriaus dokumentų skaitmeninimo ir saugesnio duomenų naudojimo medicinos, teisės bei verslo srityse. Projekte bent 75 proc. tekstų sudaro lietuviškas turinys, o didžiąją dalį – administraciniai dokumentai, žiniasklaidos ir moksliniai tekstai.
Tekstyną galite rasti čia.
Mišrūs lietuvių kalbos tekstų santraukų/abstraktų tekstynai
Projektą „Mišrūs lietuvių kalbos tekstų santraukų/abstraktų tekstynai“ įgyvendina Vytauto Didžiojo universitetas. Juo kuriami ir įgalinami lietuvių kalbos tekstų santraukų bei abstraktų tekstynai, skirti DI sistemoms, veikiančioms giliojo mokymo pagrindu, apmokyti.
Projektas orientuotas į automatinių santraukų sudarymo technologijų plėtrą lietuvių kalbai, nes šiuo metu tokio pobūdžio kokybiškų ir standartizuotų lietuviškų duomenų išteklių labai trūksta.
Projektu parengiami du skirtingi tekstynai: ekstraktyvių santraukų tekstynas, kuriame santrauka sudaroma atrenkant svarbiausius originalaus teksto sakinius, ir abstraktyvių santraukų tekstynas, kuriame generuojamos naujai suformuluotos santraukos.
Tekstynuose surinkti bent 4 tūkst. dokumentų iš keturių sričių – žiniasklaidos, teisės, medicinos ir informacinių technologijų. Visi tekstai yra lietuvių kalba, ne trumpesni nei 300 žodžių ir parengti laikantis standartizuotų anotavimo metodų, tokių kaip BIO arba XML.
Šis projektas ypač svarbus lietuvių kalbos technologijų pažangai ir DI sistemų vystymui. Sukurti tekstynai naudojami mokant automatines santraukų generavimo sistemas, kurios pritaikomos žiniasklaidoje, viešajame sektoriuje, teisėje, medicinoje ir moksliniuose tyrimuose.
Tekstyną galite rasti čia.
Kalbos paveldo transformacija ir lietuvių kalbos erdvinių duomenų išteklių sukūrimas
Projektą „Kalbos paveldo transformacija ir lietuvių kalbos erdvinių duomenų išteklių sukūrimas“ įgyvendina Lietuvių kalbos institutas. Jis didina lietuvių kalbos išteklių prieinamumą skaitmeninėje erdvėje ir sudaro sąlygas pažangių dirbtinio intelekto bei kalbos technologijų sprendimų kūrimui. Projekto metu kuriami du pagrindiniai ištekliai: Bendrasis lietuvių kalbos paveldo duomenynas ir Lietuvių kalbos erdvinių išteklių duomenynas.
Viena svarbiausių projekto dalių – lietuvių kalbos paveldo skaitmeninimas: archyvuose saugomi kalbiniai duomenys, žemėlapiai, kortelės, garso įrašai ir kita medžiaga perkeliama į skaitmeninį formatą, aprašyta metaduomenimis ir atveriama visuomenei. Projekte taikomos GIS (geografinių informacinių sistemų) technologijos, kuriant interaktyvius lietuvių kalbos ypatybių žemėlapius. Svarbi projekto dalis yra geoerdvinės informacijos infrastruktūros kūrimas, kuris leidžia analizuoti lietuvių kalbos reiškinius teritoriniu principu.
Šiuo projektu kuriama ne mažiau kaip 215 erdvinių duomenų rinkinių ir sluoksnių, apimančių tarmių paplitimą, sociolingvistinius rodiklius, kalbos vartosenos tendencijas ir kitus kalbinius duomenis. Šie ištekliai ypač naudingi mokslininkams, švietimo įstaigoms, valstybės institucijoms ir verslui, nes jie sudaro pagrindą pažangioms kalbos technologijoms, skaitmeniniams žemėlapiams, DI sistemoms bei lietuvių kalbos paveldo išsaugojimui ir sklaidai tarptautiniu mastu.
Bendrąjį lietuvių kalbos paveldo duomenyną galite rasti čia.
Lietuvių kalbos erdvinių išteklių duomenyną galite rasti čia.
Bendrasis lietuvių kalbos tekstynas ir vektorizuoti modeliai
Projektą „Bendrojo lietuvių kalbos tekstyno ir vektorizuotų modelių sukūrimas“ įgyvendina Valstybės skaitmeninių sprendimų agentūra kartu su partnerių grupe: Vytauto Didžiojo universitetu, „Neurotechnology“, „Tilde Lietuva“ ir MB „Krilas“. Projektu kuriamas didelės apimties bendrasis lietuvių kalbos tekstynas bei iš anksto apmokyti neuroniniai kalbos modeliai, kurie pritaikomi lietuvių kalbos DI sprendimams, moksliniams tyrimams ir skaitmeninėms paslaugoms.
Svarbiausias projekto rezultatas – Bendrasis lietuvių kalbos tekstynas, kurio apimtis siekia apie 3,5–3,9 mlrd. žodžių. Tekstyną sudaro žmogaus kurti lietuviški tekstai iš įvairių sričių: viešųjų dokumentų, žiniasklaidos, interneto, mokslinių ir kitų šaltinių. Remiantis šiuo tekstynu kuriami du vektorizuoti lietuvių kalbos modeliai – mažasis ir didysis. Tai neuroniniai modeliai, gebantys suprasti lietuvių kalbos struktūrą, semantiką ir kontekstą. Taip pat kuriamas programinės įrangos sprendimas tekstų generavimui bei įgalinimo priemonės kokybiškam kalbinių išteklių naudojimui.
Projektas ypač reikšmingas, nes pirmą kartą Lietuvoje sistemingai kuriama nacionalinė infrastruktūra lietuvių kalbos DI technologijoms. Projektas skatina lietuviškų pokalbių robotų, automatinių vertimo sistemų, kalbos analizės, paieškos ir generatyvinio DI sprendimų plėtrą.
Bendrąjį lietuvių kalbos tekstyną galite rasti čia.
Melagingos informacijos automatinio identifikavimo tekstynas
Projektą „Melagingos informacijos automatinio identifikavimo tekstyno sukūrimas“ įgyvendina Valstybės skaitmeninių sprendimų agentūra. Juo kaupiami lingvistiniai resursai ir kuriamas anotuotas lietuvių kalbos tekstynas, skirtas DI sistemoms, gebančioms automatiškai atpažinti melagingą ar klaidinančią informaciją interneto žiniasklaidos tekstuose. Projektas orientuotas į kovą su dezinformacija, melagienomis ir informacinėmis grėsmėmis, kurios ypač aktualios skaitmeninėje viešojoje erdvėje. Tekstyną sudaro daugiau nei 5 tūkst. anotuotų įrašų, kuriuos vertina profesionalūs ekspertai.
Šio projekto reikšmė yra strateginė tiek technologiniu, tiek visuomeniniu požiūriu. Tekstynas prisideda kuriant pažangias lietuvių kalbos DI sistemas, skirtas automatiškai analizuoti interneto turinį, identifikuoti melagingą informaciją ir padėti stabdyti jos plitimą. Taip pat projektas prisideda prie demokratinių procesų apsaugos, visuomenės informacinio atsparumo stiprinimo ir saugesnės skaitmeninės aplinkos kūrimo. Šie ištekliai gali būti naudojami žiniasklaidos stebėsenos, faktų tikrinimo, socialinių tinklų analizės ir kibernetinio saugumo sprendimuose.
Melagingos informacijos automatinio identifikavimo tekstyną galite rasti čia.
Vienkalbių ir daugiakalbių tekstynų atnaujinimas
Projektą „Vienkalbių ir daugiakalbių tekstynų atnaujinimas“ įgyvendina Valstybės skaitmeninių sprendimų agentūra. Juo papildomi ir atnaujinami lietuvių kalbos vienkalbiai bei anglų, vokiečių, prancūzų ir lenkų kalbų daugiakalbiai tekstynai, reikalingi DI ir mašininio vertimo sistemų vystymui. Projektas orientuotas į šiuolaikinių kalbos technologijų poreikius, nes nuolat kintanti kalba, nauji terminai ir lokalūs kalbiniai skirtumai reikalauja reguliariai atnaujinamų duomenų išteklių.
Projekto metu kaupiami ir apdorojami tiek vienkalbiai, tiek lygiagretieji (paraleliniai) tekstynai penkiomis kalbomis. Šie ištekliai reikalingi kuriant pažangias mašininio vertimo sistemas, automatizuotas kalbos technologijas ir skaitmenines paslaugas, kurios leistų greitai bei tiksliai versti tekstus ir interneto turinį įvairiomis kalbomis.
Projektas prisideda prie lietuvių kalbos skaitmenizavimo ir jos konkurencingumo DI srityje. Sukurti ir atnaujinti tekstynai naudojami kuriant pažangius vertimo, teksto analizės, paieškos ir kalbos generavimo sprendimus. Taip pat projektas stiprina lietuvių kalbos gyvybingumą skaitmeninėje erdvėje, sudaro sąlygas kurti naujas viešąsias elektronines paslaugas ir gerina daugiakalbės informacijos prieinamumą tiek Lietuvos gyventojams, tiek tarptautiniams vartotojams.
Atnaujintus vienakalbius ir daugiakalbius tekstynus galima rasti čia.
Daugiakalbių ir vienkalbių tekstynų sukūrimas
Projektą „Daugiakalbių ir vienkalbių tekstynų sukūrimas“ įgyvendina Valstybės skaitmeninių sprendimų agentūra. Juo kuriami penki kompleksiniai lietuvių kalbos ištekliai: vienkalbiai ir lygiagretieji (paraleliniai) tekstynai ukrainiečių, norvegų, švedų, danų ir ispanų kalbomis. Šie tekstynai skirti DI technologijų, ypač mašininio vertimo sistemų, vystymui bei pažangių skaitmeninių paslaugų kūrimui.
Kiekvieną kalbinį išteklių sudaro du tekstynai – vienkalbis ir daugiakalbis paralelinis tekstynas, kurie naudojami kuriant vertimo ir kalbos apdorojimo sprendimus. Pažymėtina, kad mažesnių kalbų technologijų plėtra yra sudėtinga dėl ribotų duomenų išteklių, todėl viešojo sektoriaus kuriami kokybiški tekstynai tampa itin svarbūs lietuvių kalbos konkurencingumui skaitmeninėje erdvėje.
Šio projekto reikšmė yra ne tik technologinė, bet ir socialinė. Kuriami tekstynai padeda mažinti kalbinę ir skaitmeninę atskirtį, sudaro galimybę gyventojams lengviau naudotis elektroninėmis paslaugomis bei gauti informaciją įvairiomis kalbomis.
Projektas prisideda ir prie lietuvių kalbos gyvybingumo išsaugojimo, pažangių DI sprendimų kūrimo ir naujų viešųjų paslaugų vystymo. Šie kalbiniai ištekliai gali būti naudojami tiek valstybės institucijose, tiek mokslo ir verslo sektoriuose kuriant automatinius vertimo, teksto analizės ir kalbos generavimo įrankius.
Šiuos tekstynus galima rasti čia.
Sintetinių lygiagrečiųjų tekstynų sukūrimas
Projektą „Sintetinių lygiagrečiųjų tekstynų sukūrimas“ įgyvendina Valstybės skaitmeninių sprendimų agentūra. Juo kuriami sintetiniai lygiagretūs tekstynai, skirti DI sistemų vystymui ir neuroninio mašininio vertimo priemonių tobulinimui.
Projekto metu kuriami trys sintetiniai lygiagretūs tekstynai šioms kalbų poroms: lietuvių–anglų, lietuvių–prancūzų ir lietuvių–vokiečių. Kiekvienai kalbų porai generuojama ne mažiau kaip 1 mln. lygiagrečių sakinių bei dideli kiekiai terminų, naudojant įvairius kontekstinius šablonus.
Projektas yra svarbus lietuvių kalbos technologijų plėtrai. Tekstynus gali naudoti mokslininkai, verslas ir viešasis sektorius kuriant pažangias vertimo, kalbos analizės ir DI sistemas. Šie ištekliai gerina mašininio vertimo kokybę, ypač specializuotose srityse, tokiose kaip medicina ar viešasis administravimas, bei prisideda prie lietuvių kalbos gyvybingumo skaitmeninėje erdvėje. Projektas taip pat padeda kurti inovatyvias skaitmenines paslaugas – nuo vertimo įskiepių iki išmaniųjų kalbos technologijų sprendimų.
Šiuos tekstynus galima rasti čia.
Žmogaus fenotipo ontologija lietuvių kalba sukūrimas
Projektą „Žmogaus fenotipo ontologijos lietuvių kalba sukūrimas“ įgyvendina Valstybės skaitmeninių sprendimų agentūra. Juo kuriama lietuviška žmogaus fenotipo ontologija pagal tarptautinius standartus ir rekomendacijas. Ontologijoje sistemingai aprašomi žmogaus fenotipų pokyčius nusakantys terminai, sąvokos ir jų tarpusavio ryšiai, kad jie galėtų būti naudojami medicinoje, bioinformatikoje ir dirbtinio intelekto sprendimuose.
Projektu kuriama daugiau nei 13 tūkst. sąvokų rinkinių, kuriuose aiškiai susisteminta ne mažiau kaip 10 tūkst. mediciniškai svarbių fenotipo pokyčių. Ontologija tinkamai struktūruota, įgalinta ir pritaikyta naudoti įvairiose skaitmeninėse sistemose bei tyrimuose.
Projektas ypač svarbus sveikatos technologijų ir lietuvių kalbos skaitmeninimo srityse. Sukurta ontologija padeda geriau standartizuoti medicininę terminiją lietuvių kalba, gerina gydytojų ir tyrėjų tarpusavio komunikaciją ir sudaro sąlygas kurti pažangius DI sprendimus genetikai ir personalizuotai medicinai. Taip pat tai gerina diferencinę diagnostiką, prognostinių ir predikcinių bioinformatinių modelių kūrimą bei leidžia efektyviau integruoti fenotipo duomenis į kasdienę medicinos praktiką.
Šią ontologiją galima rasti čia.
Lietuvių kalbos medicinos garsynas
Projektą „Lietuvių kalbos medicinos garsynas“ įgyvendina Valstybės skaitmeninių sprendimų agentūra. Juo kuriamas specializuotas lietuvių kalbos medicinos garsynas, skirtas kokybiškiems šnekos atpažinimo modeliams ir DI technologijoms medicinos srityje.
Projekto metu kaupiami ir anotuojami medicininės kalbos garso įrašai, kuriuose atsispindi reali gydytojų kalba, medicininiai terminai, konsultacijų dialogai bei ligos istorijų diktavimas. Sukurtas garsynas tampa unikaliu lietuvių kalbos ištekliumi, kurio analogų Lietuvoje šiuo metu nėra.
Šio projekto reikšmė ypač svarbi skaitmeninės medicinos ir kalbos technologijų plėtrai Lietuvoje. Sukurtas garsynas leidžia kurti lietuviškas šnekos atpažinimo sistemas, kurios automatizuotų medicininių dokumentų rengimą, palengvintų gydytojų darbą ir sumažintų administracinę naštą.
Taip pat garsynas gali būti naudojamas balso asistentams, nuotolinėms konsultacijoms, pacientų aptarnavimo sistemoms bei medicinos mokymo priemonėms. Projektas prisideda prie lietuvių kalbos gyvybingumo skaitmeninėje erdvėje ir pažangių DI sprendimų kūrimo sveikatos apsaugos sektoriuje.
Lietuvių kalbos medicinos garsyną galima rasti čia.
Lietuvių kalbos garsynas (šnekos sintezės tikslams neuroniniams balsams generuoti)
Projektą „Lietuvių kalbos garsynas (šnekos sintezės tikslams neuroniniams balsams generuoti)“ įgyvendina Valstybės skaitmeninių sprendimų agentūra. Juo kuriamas aukštos kokybės lietuvių kalbos garso duomenų rinkinys (garsynas), reikalingas šiuolaikinei šnekos sintezei ir DI balsų kūrimui. Projektu surenkami ir parengiami didelės apimties, fonetiškai reprezentatyvūs lietuvių kalbos įrašai, iš kurių galima mokyti neuroninius modelius generuoti natūraliai skambančius balsus.
Garsynas sudarytas iš kelių dalių: pagrindinio (neutralios kalbos) ir papildomo emocinio garsyno. Pagrindinis garsynas skirtas natūraliam kalbos sintezės balsui kurti, o emocinis – įrašams, kuriuose kalba perteikiamos skirtingos emocijos (pvz., džiaugsmas, pyktis, liūdesys), kartu anotavus intonaciją, tempą ir kitus akustinius požymius. Tokia struktūra leidžia DI modeliams ne tik skaityti tekstą, bet ir kalbėti žmogiškiau, su emocine išraiška.
Projektu stiprinama lietuvių kalbos technologinė infrastruktūra ir mažinamas kokybiškų kalbos duomenų trūkumas, kuris riboja pažangių DI sprendimų kūrimą Lietuvoje. Sukurtas garsynas naudojamas neuroniniams balsams, šnekos atpažinimui ir kitoms kalbos technologijoms, taip prisidedant prie pažangesnių skaitmeninių paslaugų kūrimo lietuvių kalba.
Lietuvių kalbos garsyną (šnekos sintezės tikslams neuroniniams balsams generuoti) galima rasti čia.
Medicinos vienkalbis ir lygiagretieji tekstynai
Projektą „Medicinos vienkalbis ir lygiagretieji tekstynai“ įgyvendina Valstybės skaitmeninių sprendimų agentūra. Juo kuriami specializuoti kalbiniai ištekliai medicinos sričiai. Projektu kuriami lietuvių ir kitų kalbų medicinos srities vienkalbiai tekstynai (vienos kalbos tekstų rinkiniai) ir lygiagretieji tekstynai (tekstai su jų vertimais), kurie naudojami mašininio vertimo ir DI sistemoms tobulinti.
Projektas orientuotas į medicinos informacijos vertimo kokybės gerinimą ir kalbos technologijų plėtrą. Tokie tekstynai būtini, nes medicinos srityje reikalingas itin tikslus terminų vertimas ir nuoseklus kalbos vartojimas. Sukurti duomenų rinkiniai leidžia treniruoti mašininio vertimo modelius, kad jie galėtų tiksliau versti medicininius tekstus, dokumentus ar informaciją pacientams ir specialistams. Taip pat tai prisideda prie platesnio DI sprendimų taikymo sveikatos sektoriuje.
Sukurti tekstynai tampa viešai prieinamu kalbiniu ištekliumi, kurį gali naudoti mokslininkai, vertėjai, technologijų kūrėjai ir viešojo sektoriaus institucijos. Tai padeda ne tik gerinti mašininio vertimo sistemas, bet ir skatinti inovacijas medicinos informatikos srityje, pavyzdžiui, automatinį medicininių tekstų apdorojimą ar informacijos lokalizavimą pacientams.
Medicinos vienkalbį ir lygiagretųjį tekstyną galima rasti čia.
Gynybos ir saugumo vienkalbiai ir lygiagretieji tekstynai
Projektą „Gynybos ir saugumo vienkalbiai ir lygiagretieji tekstynai“ įgyvendina Valstybės skaitmeninių sprendimų agentūra. Jis skirtas specializuotų kalbinių išteklių kūrimui gynybos ir saugumo sričiai. Projektu kuriami lietuvių ir anglų kalbų vienkalbiai tekstynai bei lygiagretieji (vertimų) tekstynai, kurie naudojami DI ir mašininio vertimo sistemoms tobulinti. Šie ištekliai padeda spręsti iššūkį, kai trūksta kokybiškų, specializuotų kalbos duomenų saugumo ir gynybos terminijai apdoroti.
Projekto metu renkami ir apdorojami įvairūs oficialūs šaltiniai: Europos Sąjungos ir Lietuvos institucijų dokumentai, strategijos, teisės aktai bei kiti gynybos ir saugumo srities tekstai. Iš jų sudaromi trijų tipų duomenų rinkiniai: lietuvių vienkalbis tekstynas, anglų vienkalbis tekstynas ir anglų–lietuvių lygiagretusis tekstynas. Lygiagrečiuose tekstynuose sakiniai suderinami tarpusavyje, kad būtų galima tiksliai mokyti vertimo modelius.
Sukurtas tekstynas yra didelės apimties ir struktūruotas taip, kad būtų tinkamas naudoti DI technologijoms: mašininio vertimo sistemoms, terminų atpažinimui, dokumentų lokalizavimui. Projektas prisideda prie lietuvių kalbos technologinės plėtros, nes gerina galimybes automatizuotai versti sudėtingus gynybos ir saugumo tekstus, taip pat stiprina viešojo sektoriaus skaitmeninius sprendimus.
Gynybos ir saugumo tekstynus galite rasti čia.
Klausimų ir atsakymų porų tekstynas
Projektą „Klausimų ir atsakymų porų tekstynas“ įgyvendina Valstybės skaitmeninių sprendimų agentūra. Jis skirtas sukurti didelės apimties lietuvių kalbos klausimų–atsakymų duomenų rinkinį. Projektu rengiamas plačios tematikos tekstynas, kuris naudojamas dirbtinio intelekto (DI) sprendimams, ypač pokalbių robotams, virtualiems asistentams ir kitoms natūralios kalbos apdorojimo technologijoms tobulinti.
Šis tekstynas sudarytas iš realių arba atrinktų klausimų ir jiems priskirtų atsakymų porų, apimančių įvairias temas ir kalbos vartojimo situacijas. Tokia struktūra leidžia DI sistemoms mokytis natūraliai interpretuoti vartotojų užklausas ir generuoti tikslius, kontekstą atitinkančius atsakymus. Duomenys padeda modeliams geriau suprasti lietuvių kalbos ypatumus, tarp jų šnekamąją kalbą, formuluotes ir skirtingus klausimų tipus.
Projektas yra svarbus lietuvių kalbos skaitmenizavimui, nes siekia sukurti viešai prieinamą ir didelės apimties kalbinį išteklių. Sukurtas tekstynas gali būti naudojamas tiek viešajame, tiek privačiame sektoriuje – nuo automatizuotų klientų aptarnavimo sistemų iki pažangių DI sprendimų kūrimo.
Klausimų ir atsakymų tekstyną galite rasti čia.
Atnaujinimo data: 2026-05-14