Шинжлэх Ухаан Технологийн Сан
Нэвтрэх

Кирил монгол бичвэрийн текст мэдээлэл олборлох технологийг зайн сургалтын системд хэрэглэх судалгаа



Салбар : Инженерийн ухаан, технологи
Улсын дугаар : 3621
Хамгаалсан он : 2017
Түлхүүр үг : Монголын зайн сургалтын систем, динамик зайн сургалтын систем, е-тестийн үр дүн, кирил монгол бичвэр, мэдээлэл олборлолт

Аннотаци

Динамик зайн сургалтын систем нь олон төрлийн дэд системүүдээс бүрдэж нэг цогц систем болдог. Эдгээр дэд системүүдээс бид е-тестийн үр дүнд үндэслэсэн динамик зайн сургалтын системийг хөгжүүлсэн. Энэ системийн үндсэн үйл ажиллагаа нь: оюутны мэдлэгийн түвшнийг автоматаар тодорхойлох; сургалтын текст нөөцөөс оюутнуудын мэдлэгийн түвшинд тохирсон оновчтой агуулгыг автоматаар олборлох; олборлосон агуулгыг автоматаар оюутанд буцаан санал болгоно. Энэ системийг бид уламжлалт сургалтын нөөцөд тулгуурлан хөгжүүлсэн. Эдгээр нөөцүүд нь монгол хэлний кирил бичвэрээр боловсруулагдсан байдагтай холбоотойгоор бид монгол хэлний кирил бичвэрийн онцлогийг хослуулан судалсан. Өөрөөр хэлбэл монгол хэлний кирил бичвэр бүхий текст нөөцийг дахин ашиглах боломжтой динамик зайн сургалтын системийг боловсруулсан.
Судалгааны ажлын шинэлэг талууд нь дараах хэдэн гол ажил болно. Үүнд:
1. ЗСС-ийн өгөгдлийн сан дах текст нөөцөөсоновчтой агуулгыг хайж олборлох оновчлолын үр дүнг дээшлүүлэх зорилгоор Монгол хэлний Кирил бичвэрийн онцлогийг судалсан. Монгол хэлний Кирил бичвэрт үгийн үндсэнд нь нэг буюу түүнээс дээш нөхцөлүүд холбогдож өгүүлбэрийн утгыг илэрхийлдэг. Үгийн үндсэнд нөхцөлүүд дараалан холбогдсон үед үгийн үндэс хувирдаг.Тиймээс үгийн үндсийг тодорхойлох нь бичвэрийг боловсруулах болон мэдээллийг сэргээхэд чухал ач холбогдолтой. Хайлтын системд үгийн үндсээр хайх нь мэдээллийн сангаас тухайн үгийн үндэс болон тухайн үгийн хувирсан хэлбэрүүд орсон мэдээнүүдийг олборлох боломжийг нэмэгдүүлдэг.Тиймээс бид судалгааны онцлогт тохируулан үгсийн сан, нөхцөлийн сан болон дүрмийн сангуудыг боловсруулсан. Мөн МХКБ-н зөв бичих дүрэм болон үгийн санд суурилсан аргаар үгийн бүтцийг задалж, үгийн үндсийг олборлох алгоритм боловсруулж, туршсан. Бид туршилтандааМонгол улсын хуулийн текст материалууд (Laws) болон зайн сургалтын текст материалуудыг (E-materials) ашигласан. Материал тус бүрээс санамсаргүй байдлаар 1000 үгтэй олонлогийг 20 удаагийн давтамжтай сонгон авч үгийн үндсийг олборлосон. Туршилтын үр дүнд: 1) Е-материалын
91.5% нь зөв задалсан,
0.0% нь буруу задалсан,
6.1% нь задраагүй,
2.4% алдаатай үгийг зассан, 2) Laws-ийн
93.7% нь зөв задалсан,
0.0% нь буруу задалсан,
4.4% нь задраагүй, 1.9% нь алдаатай үгийг зассан. МХКБ-н зөв бичих дүрэм болон үгсийн сангийн аргыг ашиглан үгийн бүтцийг задалсны давуу тал нь: 1) МХКБ-н зөв бичихдүрмийн дагуу авиа зүйн нийлэмжээр нь тооцож, цуваа хэлбэрээр залгагддаг дарааллын дүрмийг баримталсан. 2) Үгийн бүтцийг задлахдаа зөвхөн зөв хувиллаар хувилсан үгийг задлах боломжийг дээшлүүлсэн. Мөн үгийн үндсийн утгыг ялгах боломжтой болсон. 3) МХКБ-н “үгийн бүтцийн хэлбэрийг үгийн төгсгөлийн үсгээр тооцно” гэсэн дүрмийн дагуу үгийн бүх хувилбараар хувилсан үгийн бүтцийг задлах боломжийг дээшлүүлсэн.

2. ЗСС-ийн өгөгдлийн сан дах текст нөөцөөсоновчтой агуулгыг олборлох хайлтын хурд буюу хугацааг багасгах зорилгоор түлхүүр үгээр хайлт хийх нь оновчтой гэж үзсэн. Үүний тулд бид эхлээд текст материалуудаас түлхүүр үгийг олборлох туршилт хийсэн. Бид үгийн статистик мэдээлэл, TF-ITF болон хамт илрэлийн Х2 аргуудыг ашиглан текст материалуудаас түлхүүр үг олборлох алгоритм боловсруулж, туршилтыг хийсэн. Бид хоёр төрлийн текст материал дээр түлхүүр үг олборлож, үр дүнг харьцуулсан. Үүнд: Монгол хэлний текст материал дахь үгийн бүтцийг задалж, үгийн үндсийг олборлосны дараах үгийн үндэснээс бүрдсэн шинэ текст материал (цаашид NTM) болон Монгол хэл текст материал дахь үгсийн бүтцийг задлаагүй анхны текст материал (OTM). Үр дүнд нь хуулийн баримтын NTM-н Recall-н утга
0.93, е-материалынNTM-н утга нь OTM-н утгаас сайн буюуRecall-н утга
0.78 -той байна. Мөн NTM-н accuracy 88% харин OTM-н accuracy 69% байна.

3. Бид Е-тестийн үр дүнд (асуултын өгүүлбэрийн үгнүүдэд) тулгуурлан сургалтын текст материалаас оновчтой агуулгыг олборлох алгоритм боловсруулж, туршилт хийсэн. Бид дээрх 2 судалгааны аргачлалыг үндэслэн статистик мэдээлэл болон вектор орон зайн хайлтын (VSM) аргыг ашигланмэдээллийн хайлт хийсэн. Хайлтын үр дүнгтооцоолохдоотекстийн төстэй чанарыг тооцдог Cosine аргачлалыг ашигласан.Бид хоёр төрлийн текст материал дээр оновчтой агуулгыг олборлож, үр дүнг харьцуулсан. Үүнд: Монгол хэлний текст материал дахь үгийн бүтцийг задалж, үгийн үндсийг олборлосны дараах үгийн үндэснээс бүрдсэн шинэ текст материал (цаашид NTM) болон Монгол хэлний текст материал дахь үгсийн бүтцийг задлаагүй анхны текст материал (OTM). Туршилтын үр дүнд OTM-ын Cosine
0.73 хувьтай, харин NTM-нCosine нь
0.84болж нэмэгдсэн. Бид дээрх туршилтыг батлахын тулд дахин 2560 текст материалыг сонгон авч, санамсаргүй тохиолдлоор 100 асуултын олонлогоор хайлт хийж Mean average precision (MAP)-г тооцсон. Ингэхдээ асуултын тоог к=1, k=5, k=20, k=40, k=60, k=80, k=100 давтамжаар хайж, үр дүнг тооцоолсон. Үр дүнд нь OTM олонлогоос хайсан MAP-аас NTM олонлогоос хайсан MAP нь өндөр байсан. k=1 үед МАР=1.000, k=5 үед МАР=
0.7910, k=100 үед МАР=
0.7478 байсан ба к нэмэгдэх тусам NTM олонлог дахь MAP-ийн оновчлол нэмэгдэж байна. Мөн монгол хэлний кирил бичвэрийн текст материалаас түлхүүр үг олборлох алгоритмаар 5 хүртэлх түлхүүр үгийг олборлосон. Автоматаар олборлосон түлхүүр үгсийг ашиглан хайлт хийхэд текст материалын төстэй чанар нь
0.93 байна.



Зохиогч

Боловсролын доктор(PhD)

Бүтээлийн тоо : 26

Ишлэгдсэн тоо : 0




Ишлэлүүд


Ишлэл бүртгэгдээгүй байна.
Зохиогч Нэр Төрөл Он Салбар

Үзсэн тоо(Нийт) 315
Сүүлийн сард 5
Татагдсан тоо(Нийт) 0
Сүүлийн сард 0
Ишлэгдсэн тоо 0
Сэтгэгдэл бичих
Нэр :


СЭТГЭГДЛҮҮД

Li

-

Бүтээлийн тоо :

Ишлэгдсэн тоо :