HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于动态权重的LDA算法

作者:居亚亚; 杨璐; 严建峰潜在狄利克雷分布主题模型动态权重

摘要:潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)是一种流行的三层概率主题模型,其实现了文本与文本中的单词在主题层次上的聚类。该模型以词袋(Bag of Words,BOW)模型为假设,所有单词的重要性相同,简化了建模的复杂度,但使得主题分布倾向于高频词,影响了主题模型的语义连贯性。针对此问题,提出了一种基于动态权重的LDA算法,该算法的基本思想是每个单词在建模中具有不同的重要性,在迭代过程中根据单词的主题分布动态生成相应的权重并反作用于主题建模,降低了高频词对建模的影响,提高了关键词:的重要性。在4个公开数据集上的实验表明,基于动态权重的LDA算法在主题语义连贯性、文本分类准确率、泛化性能和精度方面比目前流行的LDA推理算法表现得更加优越。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机科学

《计算机科学》(CN:50-1075/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《计算机科学》报导国内外计算机科学与技术的发展动态,以其新颖、准确、及时为特色,突出动态性、综述性、学术性,“前沿学科”与“基础研究”相结合;“优秀技术”与“支撑技术”相结合;“倡导”与“争鸣”相结合。

杂志详情