作者:于洪涛 虞海明 张付志元数据提取条件随机场三阶文本分块平滑处理
摘要:针对现有论文元数据提取方法精度不高和上下文信息利用较少的问题,通过对二阶条件随机场模型的状态转移特征进行扩展,提出了一种基于三阶条件随机场的论文元数据提取方法.首先,利用分隔符对论文头部文本进行分块预处理,选择局部、布局、词典特征作为特征集进行特征提取;然后,采用L.BFGS算法并引入平滑处理学习三阶条件随机场模型的参数;最后,以论文头部提取出的特征序列作为输入,利用改进的Viterbi算法,高效求解出该论文头部信息的标记序列.实验结果表明,基于三阶条件随机场模型的方法优于其他现有提取方法.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社