HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于LDA主题模型的短文本分类

作者:杨萌萌; 黄浩; 程露红; 马平; 包武杰短文本分类吉布斯采样相似度计算

摘要:针对传统VSM(vector space model)在短文本分类中维数高、语义特征不明显的问题,提出基于LDA(latent Dirichlet allocation)模型主题分布相似度分类方法;针对短文本内容少、长度短、特征稀疏的问题,提出基于LDA模型主题-词分布矩阵的主题分布向量改进方法。与传统VSM分类方法相比,该方法降低了相似度计算维度,融合了一定语义特征。实验结果表明,与传统VSM分类方法相比,基于主题分布相似度方法的平均F1值提高了4.5%,基于LDA模型主题-词分布矩阵主题分布向量改进方法的平均F1值提高了5.2%,验证了以上方法的有效性。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机工程与设计

《计算机工程与设计》(CN:11-1775/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情