HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

MB-HL模型的微博主题挖掘研究

作者:蒋权; 郑山红; 刘凯; 李万龙微博主题挖掘潜在狄利克雷分布模型隐马尔可夫模型gibbs采样

摘要:为了解决传统的文本主题模型对微博主题挖掘准确率低及不考虑主题之间关联的问题,针对中文微博语料本身的特点,分析LDA(latent Dirichlet allocation)和HMM(hidden Markov model)的优缺点,提出了微博主题挖掘模型MB-HL(microblog-HMM&LDA)。该模型用逐条微博作为处理单元,建立分布主题—词语矩阵并进行优化,通过LDA模型对微博用户不同的行为建模并提取特征,利用HMM模型强大的时序状态建模能力弥补LDA在主题相关性上的不足,采用Gibbs采样进行推理求解。在真实的新浪微博数据上对比实验表明MB-HL模型能提高近9%主题关键词的准确度,并能有效地发现主题之间的关联关系。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机应用研究

《计算机应用研究》(CN:51-1196/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《计算机应用研究》杂志以其新颖性、学术性、系统性、技术性于一身,瞄准国家迫切需要的前沿技术,及时反映并涵盖了国内外计算机学科领域最新发展趋势及技术动向,注重刊登反映本学科领域的新理论、新方法、新技术,选题新颖,可读性强而备受广大读者所喜爱,在各行各业拥有大量的读者、作者,在计算机业界享有崇高的知名度和影响力。

杂志详情