基于上下文信息提取的概率分词算法

作者：曾华琳; 李堂秋中文分词n元模型上下文信息

摘要：汉语分词在汉语文本处理过程中是一个十分特殊而重要的组成部分。传统的基于词典的分词算法存在着很大的缺陷,它们无法对未登陆词进行很好的处理。而基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理效果不尽人意。本文提出了一种基于上下文信息提取的概率分词算法,它能够将预切分文本的上下文信息加入分词概率模型中,以上下文信息指导文本的切分。这种切分算法结合经典n元模型以及EM算法,在开放测试环境中取得了比较好的效果。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

学术问题研究

《学术问题研究》是一本有较高学术价值的大型半年刊，以“创新、求索”为指导思想，以繁荣学术研究，推动学校科研水平的不断提高和可持续发展为宗旨，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度，颇受业界和广大读者的关注和好评。

杂志详情

服务推荐

学术问题研究相关期刊

基于上下文信息提取的概率分词算法

服务推荐

在线咨询

杂志订阅

期刊推荐

中华人民共和国国务院公报

农药登记公告

国务院国有资产监督管理委员会公告