作者:关晓炟 吕学强 李卓 郑略省用户查询日志中文机构名语料构建粘合度条件随机场
摘要:【目的】解决在用户查询日志中识别机构名的标注语料资源匮乏及信息不对称问题。【方法】提出一种自动构建用户查询日志机构名训练语料的方法,解决目前用户查询日志语料资源匮乏的问题。提出粘合度概念解决信息不对称问题,结合上下文等信息,采用条件随机场模型进行机构名识别。【结果】该方法在搜狗用户查询日志上的开放测试结果显示,机构名识别的正确率为72.80%,召回率为86.73%,F值为79.16%,比传统机构名识别方法在日志上的F值提高30%。【局限】语料构建方法仅仅是模拟查询日志的特点,但训练模型的误差仍然会大于规范化标注的查询日志语料;机构名表的数据量大小会影响模型对上下文知识学习的完备性。【结论】实验表明该方法应用于用户查询日志中的机构名识别是有效的。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社