作者:余丽; 钱力; 付常雷; 赵华茗知识元抽取命名实体识别深度学习bootstrapping
摘要:【目的】改进Bootstrapping方法,建立深度学习模型从文本中抽取多类型细粒度的知识元。【方法】利用搜索引擎和Elsevier关键词构建知识元词库;基于Bootstrapping技术自动构建大规模的标注语料库,利用知识元评分模型和模式评分模型控制标注的质量;基于已标注多类型知识元的语料库训练LSTM-CRF模型,从文本中抽取新的知识元。【结果】基于17 756篇ACL论文摘要抽取'研究范畴'、'研究方法'、'实验数据'、'评价指标及取值'这4种知识元,其人工评价平均正确率为91%。【局限】模型参数的预设与调整需要人工参与,未对不同领域文本进行适用性验证。【结论】引入知识元与模式的评分模型,能够有效缓解'语义漂移'问题;基于深度学习模型抽取知识元实现快速且正确率高,为情报大数据智能分析提供了一种高效可靠的数据获取手段。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社