作者:姚兆旭; 马静义本挖掘词条抽取主题模型微博话题
摘要:【目的】自动抽取微博话题信息,从主题及观点两个维度整合揭示微博话题内容与观点。【方法】将主题模型应用于微博话题中,结合改进的TF—IDF算法,构建主题特征词向量;基于特征同向量中特征词之间的相关度,A动抽取主题浏汇链:引入情感词典,抽取主题观点,无监督构建“主题+观点”词条。【结果】使用爬虫工具抽取2014年6月-2015年6月期间4个特定热门微博话题事件的微博共24598条,抽取“主题+观点”词条,平均准确率达到80.3%,召回率为76.7%。【局限】数据量依旧较小,主题模型对于微博短文本的特征抽取效果仍需提高。【结论】本文算法可以准确且有效地描述话题事件内容及其相应观点。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社