作者:林江豪; 顾也力; 周咏梅; 阳爱民; 陈锦情感词典情感词情感权值种子表情符号
摘要:情感词典是文本情感分析的基础资源。利用表情符号明显的情感表达作用,提出一种基于种子表情符和SO-PMI算法结合的情感词典构建方法。选择44个情感明显、内容丰富的表情符号词作为种子情感集合。构建过程融合了TF-IDF值在词汇重要程度的度量作用,有效选择候选情感词集。基于SO-PMI算法,在大量语料中计算候选情感词汇与种子表情符号之间的情感共现信息,进而确定词汇的情感权值和极性。在500万条微博语料中,计算并构建情感词典SentiNet,共有情感词汇13814个,其中正向词汇6885个,负向词汇6929个。将SentiNet应用于微博文本情感分析任务中,实验结果表明,SentiNet能实现情感词的情感表示,并可应用于大规模的微博语料情感分析任务。该方法融合了情感词的重要度衡量优势和种子表情符号集的情感表达优势,证明了获得的情感权值有效。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社