HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

一种人名识别方法的研究

作者:张素香 张素贤 王小捷最大熵概率特征自信度函数评测

摘要:针对汉语人名识别的难点,基于最大熵算法提出了结舍多知识、多模型的识别方法,充分考虑了人名的内部特征(小颗粒特征)和人名的语境信息。论文的主要贡献是:将概率信息赋予最大熵模型,极大提高人名的准确率和召回率;细化了分类模型,将人名识别分成中国人名识别、外国译名识别和单字人名识别;提出动态优先级方法来防止一个外国译名被部分识别为一个或几个中国人名。实验测试数据为1998年1月的人民日报和Sighan(2006)命名实体测试语料。测试结果表明,人民日报(1998—01)的召回率为90.06%,准确率为89.27%;Sighan(MSRA)语料的召回率为95.39%,准确率为96.71%;Sighan(LDC)语料的召回率为87.56%,准确率为91.04%。实验结果证明,提出的人名识别方法是非常有效的。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机工程与应用

《计算机工程与应用》(CN:11-2127/TP)是一本有较高学术价值的大型半月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情