HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

搜索日志中中文人名的自动识别

作者:曾镇; 吕学强; 李卓搜索日志人名识别特征模板条件随机场条件概率

摘要:【目的】人名在搜索日志中大量存在,搜索日志中人名识别研究有助于提高搜索引擎的检索效果。【方法】提出一种搜索日志中识别中文人名的方法,首先分析日志中人名的内部组成结构以及外部上下文信息,提取7个特征,选用合适的特征模板,应用条件随机场模型初步识别人名。然后针对CRFs未能识别的人名其所在查询串字间组合共现频次较低的规律,设计贝叶斯条件概率计算公式筛选更多的人名。【结果】在搜狗日志中进行实验,开放测试结果准确率达到95%,F值达到91%。【局限】需要人工标注一定规模的训练语料。【结论】实验结果表明,该方法对于搜索日志中的人名识别是行之有效的。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

数据分析与知识发现

《数据分析与知识发现》(CN:10-1478/G2)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《数据分析与知识发现》内容定位于广泛吸纳计算机科学、数据科学、情报科学以及数字科研、数字教育和数字文化等领域的技术与方法,研究数据驱动的语义计算、内容分析、数据挖掘、知识发现、智能管理和决策支持等方面的技术、方法、系统以及支撑设施、政策与机制等,尤其是聚焦从海量、异构、分布、动态、甚至富媒体数据中挖掘和发现知识以支持研究、管理和决...

杂志详情