HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

多策略汉维句子对齐

作者:田生伟 吐尔根·依布拉音 禹龙 加米拉·吾...双语语料错误抑制句子对齐混合策略汉维句子

摘要:提出了一种错误抑制的多策略算法对齐汉维语句子。针对长度对齐算法无法避免错误蔓延的特点,提出了一种新的错误蔓延抑制策略:利用双语语料的词汇共现信息,自动抽取汉维语词汇搭配,结合句子长度特征,寻找1:1模式的句对作为锚点,将错误蔓延抑制在锚点内;在锚点之间,利用标点符号和长度混合方法进行句子对齐。算法实验结果验证了该多策略算法寻找的锚点的精度高,有效抑制了对齐错误的蔓延;采用的混合对齐算法,避免了基于词汇对齐算法的高时间复杂度的弱点,比传统的对齐算法性能有了较大提高,对齐准确率由95.0%提高到97.6%,召回率由96.8%提高到98.2%,采用的对齐正确性评价算法可以有效发现自动对齐中的噪音对齐。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机科学

《计算机科学》(CN:50-1075/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《计算机科学》报导国内外计算机科学与技术的发展动态,以其新颖、准确、及时为特色,突出动态性、综述性、学术性,“前沿学科”与“基础研究”相结合;“优秀技术”与“支撑技术”相结合;“倡导”与“争鸣”相结合。

杂志详情