HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于上下文信息提取的概率分词算法

作者:曾华琳; 李堂秋中文分词n元模型上下文信息

摘要:汉语分词在汉语文本处理过程中是一个十分特殊而重要的组成部分。传统的基于词典的分词算法存在着很大的缺陷,它们无法对未登陆词进行很好的处理。而基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理效果不尽人意。本文提出了一种基于上下文信息提取的概率分词算法,它能够将预切分文本的上下文信息加入分词概率模型中,以上下文信息指导文本的切分。这种切分算法结合经典n元模型以及EM算法,在开放测试环境中取得了比较好的效果。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术问题研究

《学术问题研究》是一本有较高学术价值的大型半年刊,以“创新、求索”为指导思想,以繁荣学术研究,推动学校科研水平的不断提高和可持续发展为宗旨,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度,颇受业界和广大读者的关注和好评。

杂志详情