HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于BTM和K-means的微博话题检测

作者:李卫疆; 王真真; 余正涛短文本话题模型话题发现

摘要:近年来,微博等社交网络的发展给人们的沟通交流提供了方便。由于每条微博都限定在140字以内,因此产生了大量的短文本信息。从短文本中发现话题日渐成为一项重要的课题。传统的话题模型(如概率潜在语义分析(PLSA)、潜在狄利克雷分配(LDA)等)在处理短文本方面都面临着严重的数据稀疏问题。另外,当数据集比较集中并且话题文档间的差别较明显时,K-means聚类算法能够聚类出有区分度的话题。引入BTM话题模型来处理微博数据这样的短文本,以缓解数据稀疏的问题。同时,整合了K-means聚类算法来对BTM模型所发现的话题进行聚类。在新浪微博短文本集上进行的实验证明了此方法发现话题的有效性。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机科学

《计算机科学》(CN:50-1075/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《计算机科学》报导国内外计算机科学与技术的发展动态,以其新颖、准确、及时为特色,突出动态性、综述性、学术性,“前沿学科”与“基础研究”相结合;“优秀技术”与“支撑技术”相结合;“倡导”与“争鸣”相结合。

杂志详情