作者:黄熠; 王娟中文文本情感分类网络爬虫情感词典粒子群优化算法高斯过程
摘要:中文文本的情感倾向分析是网络舆情信息挖掘和分析的关键技术之一。提出了一种粒子群-高斯过程算法(PSO-GP)的中文文本情感倾向分类方法,采用粒子群优化算法(Particle Swarm optimization,PSO)进行高斯过程(Gaussian Process)超参数的最优搜索,解决了传统高斯过程中共轭梯度法迭代次数难确定、对初值依赖性强和易陷入局部极小值等问题。首先采用多线程网络爬虫技术采集文本数据组成语料库,构建特定领域情感词典,然后通过情感词匹配选择最有效的特征,降低数据维度,并利用TF-IDF算法计算特征词的权重以生成特征向量。最终,将测试样本输入PSO-GP分类模型。实验结果表明,与传统GP方法相比,提出的改进高斯过程分类模型的分类准确率提高了近15%。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社