作者:王超; 王峥微博分词标注命名实体神经网络条件随机场
摘要:近年来微博的快速发展使得非正式文本的命名体识别的研究受到越来越多的关注,同时微博的特点使命名体识别研究面临着诸多挑战。针对中文微博文本词汇新奇,不符合语法,且缺少明显的词边界等特点,结合目前应用广泛的LSTM(Long Short-term Memory)神经网络模型以及条件随机场模型分别用于中文分词任务和命名实体识别任务,用微博语料本身训练模型,然后改进分词标注集,为条件随机场模型提供更准确更多维的特征。在新浪微博数据上进行实验,结果表明本方法相比于通用分词软件和传统四词位分词集在准确率上提高了12%。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社