作者:乐娟 赵玺开放领域命名实体识别隐马尔科夫模型viterbi算法规则树
摘要:针对机构命名实体识别效率低的问题,提出一种基于隐马尔科夫模型(HMM)的京剧机构命名实体识别算法。利用HMM模型标注文本切分结果的词性消除歧义,通过Viterbi算法计算某种分词结果所对应的可能性最大的词性序列。根据定制的名称识别规则,借助机构前缀词库、后缀词库获得机构名称左右边界,通过自动机算法识别语料中的机构命名实体,并将新词加载到分词词典中。针对京剧领域语料进行开放测试验证,结果表明,该算法的识别正确率可达到99%。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社