作者:蒋权; 郑山红; 刘凯; 李万龙微博主题挖掘潜在狄利克雷分布模型隐马尔可夫模型gibbs采样
摘要:为了解决传统的文本主题模型对微博主题挖掘准确率低及不考虑主题之间关联的问题,针对中文微博语料本身的特点,分析LDA(latent Dirichlet allocation)和HMM(hidden Markov model)的优缺点,提出了微博主题挖掘模型MB-HL(microblog-HMM&LDA)。该模型用逐条微博作为处理单元,建立分布主题—词语矩阵并进行优化,通过LDA模型对微博用户不同的行为建模并提取特征,利用HMM模型强大的时序状态建模能力弥补LDA在主题相关性上的不足,采用Gibbs采样进行推理求解。在真实的新浪微博数据上对比实验表明MB-HL模型能提高近9%主题关键词的准确度,并能有效地发现主题之间的关联关系。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社