作者:任高举 吐尔根·伊布拉音 艾山·吾买尔统计机器翻译短语抽取汉维短语对
摘要:双语短语对抽取是基于短语的统计机器翻译中短语翻译模型训练的关键步骤,但由于汉维平行语料库规模有限,数据稀疏问题严重.本文提出了一种改进的短语抽取算法,该算法首先考虑词对齐矩阵中一个汉语词对齐到多个维吾尔语词的情况(包括不连续),然后利用Och方法抽取短语对,最后考虑维吾尔语SOV语序结构特点,抽取双语短语.实验表明,该算法能够较准确地且尽可能多地抽取汉维短语对,从而提高翻译模型的质量.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
《新疆大学学报·哲学人文社会科学版》(CN:65-1034/G4)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。坚持为社会主义服务的政治方向,强调学术性、思想性和创新性,特别注重立足新疆,面向全国,既充分体现本校和新疆的区域特色,又致力于促进学术的交流和繁荣。 《新疆大学学报·哲学人文社会科学版》现已更名为《新疆大学学报·哲学社会科学版》。
杂志详情