HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于领域词典的动态规划分词算法

作者:蒋卫丽; 陈振华; 邵党国; 马磊; 相艳; 郑...动态规划词典领域适应性隐马尔可夫模型召回率准确率中文分词

摘要:由于中文分词的复杂性,不同专业领域具有不同的词典构造。该文通过隐马尔可夫模型(Hidden Markov model,HMM)中文分词模型对文本信息进行初步分词,并结合相关的搜狗领域词库构建出对应的领域词典,对新词出现进行监控,实时优化更新,从而提出了一种基于领域词典的动态规划分词算法。通过对特定领域的信息进行分词实验,验证了该文提出的分词算法可获得较高的分词准确率与召回率。实验结果表明,基于领域词典的动态规划分词算法与基于领域词典的分词算法相比,准确率和召回率都有提升。基于领域词典的动态规划分词算法与传统的smallseg分词、snailseg分词算法相比,分词召回率和准确率都有提升,分词召回率提升了大约1%,分词准确率提升了大约8%,进一步说明了该文提出的分词算法具有很好的领域适应性。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

南京理工大学学报

《南京理工大学学报》(CN:32-1397/N)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《南京理工大学学报》报道科技新动态,内容丰富,包括机械工程、电子工程、机电工程、光电技术、化学工程、环境科学、计算机科学、信息工程、自动控制与系统工程、热能工程、材料科学与工程、应用数学、应用物理、应用力学和管理工程等方面的高层次学术论文。

杂志详情