Шинжлэх Ухаан Технологийн Сан
Нэвтрэх

Монгол хэлний нэрлэсэн нэгж таниур



Салбар : Инженерийн ухаан, технологи
Улсын дугаар : 3524
Хамгаалсан он : 2017
Түлхүүр үг : Хэл боловсруулалт, машин сургалт, монгол хэлний хөмрөг, үгзүйн задлуур, өгүүлбэр зааглагч, хэл илрүүлэгч, холбоо үг илрүүлэг, токен заагчлагч

Аннотаци

Мэдээлэл задлах систем (Information Extraction- IE) ба машин унших боломжтой. Бүтэцгүй эсвэл хагас бүтэцтэй баримтаас бүтэцлэгдсэн мэдээлэл автоматаар залан авахыг зорьдог. Тухайлбал хэн хэнд хувьцаагаа зарсан, хэн хэзээ хаана ямар үйл явдалд оролцсон зэрэг асуултад хариулна. Үүний тулд бичвэрээс бүх хүн, компани, газар усны нэр, цаг хугацаа заасан илэрхийллийг олох, тэдгээрийг ангилах, шинжлэх, гаргалгаа хийх (inferring) зэрэг олон дэд даалгаврыг гүйцэтгэдэг. Компьютерийн програм хангамжид эдгээр чадамжийг бий болнох нь өнөө цагт цахим орчинд бий болсон их өгөгдлөөс (Big Data) хэрэглэгч өөрт хэрэгтэй мэдээллийг оновчтой олж авахад чухал үүрэгтэй юм. Мэдээлэл задлах системийн хамгийн чухал даалгавар нь Нэрлэсэн нэгж таних (Named Entity Recognition NER) юм. Уг даалгавар нь бичвэр дэх нэрлэсэн нэгжийг илрүүлж урьдчилан тодорхойлсон ангилалд хуваадаг. Олон улсад ихэнхдээ хүн, байгууллага, газар орны нэр (name expression), огноо болон цаг хугацаа (time expression), мөнгө болон тоо (number expression) зэрэг ангиллаар нэрлэсэн нэгжийг таньдаг. Нөгөө талаар эх хэлийг шинжлэхдээ өгүүлбэр дэх үг бүрийг толь бичгээс хайж нэр, үйл, баймж зэргээр ангилдаг. Гэтэл ихэнх бичвэр ямар нэгэн зүйлийн нэр агуулдаг ба толь бичигт уг нэр байхгүй бол систем ангилж чадахгүйд хүрнэ. Тиймээс нэрлэсэн нэгжийг тусгайлан таних нь Эх хэл боловсруулалтын (Natural Language Proccessing- NLP) мэдээлэл олж авах (Information Retrieval- IR), Машин орчуулга (Machine Translation - MT), Хүмүүний хэлийг ойлгох (Human Language Understanding - HLU) чиглэлийн судалгааны суурь болдог. Түүхий бичвэрээс мэдээлэл задлах, машинаар орчуулах, эх хэлийг ойлгох зэрэг өндөр түвшний боловсруулалтын суурь нэрлэсэн нэгж таниур үүсгэх судалгааны ажлыг монгол хэлэнд хийх шаардлага тулгарч байна. Монгол хэлний судалгаа, стохастик машин сургалтын аргад үндэслэн монгол хэлний нэрлэсэн нэгж таниурын аргачлал болон загвар үүсгэх зорилго тавин ажилласан. Судалгааны ажлын зорилтууд:
1. Монгол хэлний оноосон нэр, огноо, цаг хугацаа, тоо бичих дүрмийн судалгааг хийж олон улсын жишигт нийцсэн монгол хэлний нэрлэсэн нэгжийн хөмрөг болон нэрийн сэн үүсгэх,

2. Өнөөгийн хэл боловсруулалтын түвшинд монгол хэлэнд машин сургалтын аргын хамгийн тохиромжтой онцлог тодорхойлох,

3. Олон улсад ашигладаг машин сургалтын аргуудаас [2]- [8] монгол хэлэнд хамгийн үр дүнтэйг илрүүлэн олон ангилагчийг хольж үр дүнг сайжруулах аргачлал боловсруулах,
Монгол хэлний мэдлэг шингэсэн онцлог ялгах, нэрлэсэн нэгж таниурын урьдчилсан боловсруулалтад шаардлагатай хэл илрүүлэгч, өгүүлбэр зааглагч, токен зааглагч, хэрэггүй үг илрүүлэгч, хэлц үг илрүүлэгч, үгзүйн задлуур програмуудыг хөгжүүлэх, нөхцөлөөр хувирсан нэр болон үгийн сангийн хэлбэрийг харьцуулахад зориулж тэмдэгтийн цуваа ойролцоолох алгоритмуудыг үнэлж эдгээрт шаардалагатай хэлний мэдлэг шингэсэн хөмрөг, үгийн сан үүсгэх.



Зохиогч

Боловсролын доктор(PhD)

Бүтээлийн тоо : 1

Ишлэгдсэн тоо : 0




Ишлэлүүд


Ишлэл бүртгэгдээгүй байна.
Зохиогч Нэр Төрөл Он Салбар

Үзсэн тоо(Нийт) 414
Сүүлийн сард 8
Татагдсан тоо(Нийт) 0
Сүүлийн сард 0
Ишлэгдсэн тоо 0
Сэтгэгдэл бичих
Нэр :


СЭТГЭГДЛҮҮД

Боловсролын доктор(PhD)

-

Бүтээлийн тоо :

Ишлэгдсэн тоо :