作者:吕学强; 吴宏林; 姚天顺自然语言处理双语语料库词对齐最小求交最小求差
摘要:该文提出了一种基于语料库的无双语词典的英汉词对齐模型.它把自然语言的句子形式化地表示为集合,通过集合的交运算和差运算实现单词对齐,同时还考虑了词序和重复词的影响.该模型不仅能对齐高频单词,而且能对齐低频单词,对未登录词和汉语分词错误具有兼容能力. 该模型几乎不需要任何语言学知识和语言学资源,使语料库方法可独立应用.实验表明,同质语料规模越大,词对齐的正确率和召回率越高.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社