HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

一种面向网络长文本的话题检测方法

作者:郑恒毅; 廖城霖; 李天柱网络长文本话题检测文本表示话题发现文本聚类

摘要:提出了一种面向网络长文本的话题检测方法.针对文本表示的高维稀疏性和忽略潜在语义的问题,提出了Word2vec&LDA (latent dirichlet allocation)的文本表示方法.将LDA提取的文本特征词隐含主题和Word2vec映射的特征词向量进行加权融合既能够进行降维的作用又可以较为完整的表示出文本信息.针对传统话题发现方法对长文本输入顺序敏感问题,提出了基于文本聚类的Single-Pass&HAC (hierarchical agglomerative clustering)的话题发现方法,在引入时间窗口和凝聚式层次聚类的基础上对于文本的输入顺序具有了更强的鲁棒性,同时提高了聚类的精度和效率.为了评估所提出方法的有效性,本文从某大学社交平台收集了来自真实世界的多源数据集,并基于此进行了大量的实验.实验结果证明,本文提出的方法相对于现有的方法,如VSM (state vector space model)、Single-Pass等拥有更好的效果,话题检测的精度提高了10%~20%.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

工程科学学报

《工程科学学报》(CN:10-1297/TF)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情