作者:尹继豪; 樊孝忠; 刘士宁; 于江德bootstrapping命名实体识别训练语料类语言模型
摘要:提出一种基于Bootstrapping算法构建训练语料的方法.该方法从自动标注的语料中随机选取部分语料,人工修正后生成种子集,用该种子集训练一个基于类的语言模型,然后使用该模型自动标注剩余的语料;再从剩余语料中选取部分语料进行以上处理,如此循环直到训练语料标注质量理想.实验结果表明,该方法在保证训练语料标注质量理想的情况下,能够大幅度地减少人工参与.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社