作者:黄华军; 谭骏珊; 秦姣华话题检测主题模型文档词条矩阵词语关联矩阵
摘要:微博数据的实时、大规模、短文本以及富含噪声等特征为话题检测带来新的挑战,传统向量空模型(VSM)表示文本无法很好地对其进行建模。基于此,提出一种基于主题模型的微博话题检测算法。首先,对微博数据构建文档词条矩阵和词语关联矩阵来提取主题词;然后,对主题词进行聚类,得到主题模型;最后,利用文本与主题模型相互匹配实现文本聚类,从而达到话题检测的目的。实验结果表示,该算法能有效地进行话题聚类并检测出话题,在最佳参数组合条件下,其各类别的平均F值达到95%以上。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社