HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于LDA模型的网络刊物主题发现与聚类

作者:杨传春; 张冰雪; 李仁德; 郭强lda模型生成模型主题发现层次聚类文本挖掘

摘要:随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采样、模型评价等作了较为深入的阐述和解析,结合网络教育平台的2794篇学习刊物进行了主题发现和聚类实验,建立了包含3800个词项的词库,通过kmeans算法和合并向量算法(UVM)分两步解决了主题聚类问题。提出了文本挖掘实验的一般方法,并对层次聚类中文本距离的算法提出了改进。实验结果表明,该平台刊物的主题整体相似度比较好,但主题过于集中使得许多刊物的内容不具有辨识度,影响用户对主题的定位。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

上海理工大学学报

《上海理工大学学报》(CN:31-1739/T)是一本有较高学术价值的双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《上海理工大学学报》主要刊登基础学科(数学、物理、化学)。热能工程、流体力学、流体机械及流体动力工程、计算机应用、机械学、机械制造、测试计量技术及仪器等方面的学术研究及科研实践成果。

杂志详情