Шинжлэх Ухаан Технологийн Сан
Нэвтрэх

Гүн сургалтанд суурилсан Монголоос Хятад руу аман яриа орчуулах түлхүүр технологиудын судалгаа



Салбар : Нийгмийн шинжлэх ухаан

Төслийн дугаар :

Төслийн төрөл : Хамтарсан төсөл

Хугацаа: 2019-2022

Санхүүжилт: 80,000.0 мян.төг

Түлхүүр үг : Өгөгдлийн сан, хиймэл оюун, машин сургалт, гүн сургалт, эх хэлний цахим боловсруулалт

Үр дүн

-Монгол болон Хятад хэл хооронд орчуулга хийх технологийн судалгаа бөгөөд үүнийг гүйцэтгэхийн тулд тухайн хоёр хэлний ямар нэгэн харгалзсан сан үүсгэх явдал юм. Олон улс дах судалгаа, хэрэгжүүлэлтүүдийг судалсны үндсэн дээр энэхүү харгалзсан сан нь бичвэр дээр суурилах нь хамгийн тохиромжтой болохыг тодорхойлсон.
-Сургалтын өгөгдлийн хэмжээ нэмэгдэх бүрд сургагдаж буй загварын алдаа багасаж, өөрөөр нарийвчлал ихсэж байсан ба эдгээр туршилтын дунд хамгийн их сургалтын өгөгдөл дээр сургагдсан 2022 оны 10 сарын 17-нд эхлүүлж 7 хоног 17 цаг үргэлжилсэн загварын сургалт 74%-ийн нарийвчлалд хүрсэн болно. Тэгвэл дахин сайжруулж 2023 оны 4 сарын 10-нд эхлүүлж, 10 өдөр 3 цаг үргэлжилсэн загварын сургалт сургалтын өгөгдөл дээр 86.3%-ийн нарийвчлалд хүрсэн.
-Бичвэрийн алдааг илрүүлэн засахын тулд Python хэл дээр autocorrection model, SymSpell (Symmetric delete spelling correction algorithm) загвар, BERT зэрэг олон арга алгоритмуудыг туршин холбогдох загваруудыг гарган авсан. Загварууд нь харгалзан дараах үр дүнгүүдийг үзүүлсэн. Алдааг нь шалгаж бэлэн болгосон файлуудаа 405 мянган өгүүлбэр бүхий нийт 4 сая гаруй үгтэй өгөгдлийн санг бэлтгэж туршихад 75%-ийн магадлалтайгаар тухайн үгийг санал болгож байсан бол 4.883.244 өгүүлбэр буюу 413 MB хэмжээтэй ялгаатай 500 мянган үгийн санг autocorrect model-ийг ашиглан өгүүлбэрээр өгөгдлийн сангаа бэлтгэж туршиж хийж үзэхэд үгээр өгөгдлийн сангаа бэлтгэснээс 15%-аар илүү амжилттай үр дүнг үзүүлсэн.
-SymSpell алгоритм нь олон тооны мөрүүдийн жагсаалтаас засварлах тодорхой зайд маш богино хугацаанд бүх мөрийг олдог тухайн хэлнээс хамааралгүй устгах, солих, орлуулах, оруулах үйлдэл бүхий уламжлалт аргаас зургаа дахин хурдан юм. Тус загвар дээр нийтдээ 1 сая гаран өгөгдөл дээр туршилтаа явуулахад одоогийн байдлаар 80%-тай үр дүнг үзүүлсэн. Transformers-ийн хоёр чиглэлтэй кодлогчийн төлөөлөл болох BERT нь Google-ээс гаргасан хэл боловсруулах (NLP)-ийн өмнөх бэлтгэлд зориулсан трансформаторт суурилсан машин сургалтын техник юм. 2 сая үг бүхий өгөгдлийн сан дээр загварын туршиж 83% үр дүнг үзүүлсэн.

Удирдагч


Эрдэм шинжилгээний бүтээл
1. Нэг сэдэвт бүтээл, ном, товхимол /нэр/

Зохиогч Бүтээлийн нэр Он
2. Эрдмийн зэрэг горилсон бүтээлийн нэр

3. Шинэ ба шинэчилсэн бүтээгдэхүүний загвар

Зохиогч Бүтээлийн нэр Он
4. Шинэ болон шинэчилсэн технологи /нэр/

Зохиогч Бүтээлийн нэр Он
5. Тоног төхөөрөмжийн туршилтын загвар

Зохиогч Бүтээлийн нэр Он
6. Батлагдсан стандарт

Зохиогч Бүтээлийн нэр Он
7. Зөвлөмж

Зохиогч Бүтээлийн нэр Он
8. Заавар

Зохиогч Бүтээлийн нэр Он
9. Патент

Зохиогч Бүтээлийн нэр Он
10.Ашигтай загварын гэрчилгээ


Зохиогч Бүтээлийн нэр Он
12. Техник эдийн засгийн үндэслэл

Зохиогч Бүтээлийн нэр Он
13. Газрын зураг, атлас

Зохиогч Бүтээлийн нэр Он
14. Шинэ онол, теором

Зохиогч Бүтээлийн нэр Он
15. Эрдэм шинжилгээний өгүүлэл гадаад

Зохиогч Бүтээлийн нэр Он
16. Эрдэм шинжилгээний өгүүлэл дотоод

Зохиогч Бүтээлийн нэр Он
17.Эрдэм шинжилгээний илтгэл гадаад

Зохиогч Бүтээлийн нэр Он
18.Эрдэм шинжилгээний илтгэл дотоод

Зохиогч Бүтээлийн нэр Он
19.Аргачлал

Зохиогч Бүтээлийн нэр Он
20.Ишлэл


Сэтгэгдэл бичих
Нэр :


СЭТГЭГДЛҮҮД