基于弱监督和半自动方法的中文关系抽取数据集构建

作者：马超义; 徐蔚然关系抽取数据集弱监督半自动

摘要：关系抽取是信息抽取中的一项基础任务,对信息检索、问答系统、知识图谱等有非常重要的意义。现有的关系抽取数据集存在包含类别太少、句子标注困难、不易扩展等缺陷,且只有英文数据集,不能很好地解决中文关系抽取任务。该文采用弱监督和半自动的方法,构建了一份中文关系抽取数据集,弥补了上述不足。首先借助维基百科抽取出丰富的关系对,从百度搜索返回结果及搜狗新闻语料中抽取包含实体对的句子,完成弱监督句子抽取过程。将句子放入RNN关系抽取系统进行打分,选取标注价值高的句子提交人工标注,对标注结果进行处理,最终得到中文关系抽取数据集。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

中文信息学报

《中文信息学报》（CN：11-2325/N）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情

服务推荐

中文信息学报相关期刊

基于弱监督和半自动方法的中文关系抽取数据集构建

服务推荐

在线咨询

杂志订阅

期刊推荐

现代经济信息

中国科技信息

佳木斯教育学院学报

中国信息技术教育