Салбар : Нийгмийн шинжлэх ухаан
Төслийн дугаар :
Төслийн төрөл : Хамтарсан төсөл
Хугацаа: 2019-2022
Санхүүжилт: 80,000.0 мян.төг
Түлхүүр үг : Өгөгдлийн сан, хиймэл оюун, машин сургалт, гүн сургалт, эх хэлний цахим боловсруулалт
Үр дүн
-Монгол болон Хятад хэл хооронд орчуулга хийх технологийн судалгаа бөгөөд үүнийг гүйцэтгэхийн тулд тухайн хоёр хэлний ямар нэгэн харгалзсан сан үүсгэх явдал юм. Олон улс дах судалгаа, хэрэгжүүлэлтүүдийг судалсны үндсэн дээр энэхүү харгалзсан сан нь бичвэр дээр суурилах нь хамгийн тохиромжтой болохыг тодорхойлсон.
-Сургалтын өгөгдлийн хэмжээ нэмэгдэх бүрд сургагдаж буй загварын алдаа багасаж, өөрөөр нарийвчлал ихсэж байсан ба эдгээр туршилтын дунд хамгийн их сургалтын өгөгдөл дээр сургагдсан 2022 оны 10 сарын 17-нд эхлүүлж 7 хоног 17 цаг үргэлжилсэн загварын сургалт 74%-ийн нарийвчлалд хүрсэн болно. Тэгвэл дахин сайжруулж 2023 оны 4 сарын 10-нд эхлүүлж, 10 өдөр 3 цаг үргэлжилсэн загварын сургалт сургалтын өгөгдөл дээр 86.3%-ийн нарийвчлалд хүрсэн.
-Бичвэрийн алдааг илрүүлэн засахын тулд Python хэл дээр autocorrection model, SymSpell (Symmetric delete spelling correction algorithm) загвар, BERT зэрэг олон арга алгоритмуудыг туршин холбогдох загваруудыг гарган авсан. Загварууд нь харгалзан дараах үр дүнгүүдийг үзүүлсэн. Алдааг нь шалгаж бэлэн болгосон файлуудаа 405 мянган өгүүлбэр бүхий нийт 4 сая гаруй үгтэй өгөгдлийн санг бэлтгэж туршихад 75%-ийн магадлалтайгаар тухайн үгийг санал болгож байсан бол 4.883.244 өгүүлбэр буюу 413 MB хэмжээтэй ялгаатай 500 мянган үгийн санг autocorrect model-ийг ашиглан өгүүлбэрээр өгөгдлийн сангаа бэлтгэж туршиж хийж үзэхэд үгээр өгөгдлийн сангаа бэлтгэснээс 15%-аар илүү амжилттай үр дүнг үзүүлсэн.
-SymSpell алгоритм нь олон тооны мөрүүдийн жагсаалтаас засварлах тодорхой зайд маш богино хугацаанд бүх мөрийг олдог тухайн хэлнээс хамааралгүй устгах, солих, орлуулах, оруулах үйлдэл бүхий уламжлалт аргаас зургаа дахин хурдан юм. Тус загвар дээр нийтдээ 1 сая гаран өгөгдөл дээр туршилтаа явуулахад одоогийн байдлаар 80%-тай үр дүнг үзүүлсэн. Transformers-ийн хоёр чиглэлтэй кодлогчийн төлөөлөл болох BERT нь Google-ээс гаргасан хэл боловсруулах (NLP)-ийн өмнөх бэлтгэлд зориулсан трансформаторт суурилсан машин сургалтын техник юм. 2 сая үг бүхий өгөгдлийн сан дээр загварын туршиж 83% үр дүнг үзүүлсэн.