基于LDA模型的网络刊物主题发现与聚类

作者：杨传春; 张冰雪; 李仁德; 郭强lda模型生成模型主题发现层次聚类文本挖掘

摘要：随着智能终端的普及,文本的主题挖掘需求也越来越广泛,主题建模是文本主题挖掘的核心,LDA生成模型是基于贝叶斯框架的概率模型,它以语义关联为基础,很好地解决了文本潜在主题的提取问题。对文本聚类过程的核心技术LDA生成模型、数据采样、模型评价等作了较为深入的阐述和解析,结合网络教育平台的2794篇学习刊物进行了主题发现和聚类实验,建立了包含3800个词项的词库,通过kmeans算法和合并向量算法(UVM)分两步解决了主题聚类问题。提出了文本挖掘实验的一般方法,并对层次聚类中文本距离的算法提出了改进。实验结果表明,该平台刊物的主题整体相似度比较好,但主题过于集中使得许多刊物的内容不具有辨识度,影响用户对主题的定位。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

上海理工大学学报

《上海理工大学学报》（CN：31-1739/T）是一本有较高学术价值的双月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《上海理工大学学报》主要刊登基础学科（数学、物理、化学）。热能工程、流体力学、流体机械及流体动力工程、计算机应用、机械学、机械制造、测试计量技术及仪器等方面的学术研究及科研实践成果。

杂志详情

服务推荐

上海理工大学学报相关期刊

基于LDA模型的网络刊物主题发现与聚类

服务推荐

在线咨询

杂志订阅

期刊推荐

老年教育

大学数学

哈尔滨工程大学学报

现代大学教育