作者:杨秀璋; 于小民; 李娜; 夏换文本自动分类lda随机森林主题挖掘中国知网
摘要:摘要:当前科研成果呈爆炸式增长,论文跨学科交叉分布不断深化,精准获取所需的论文需要耗费大量的时间和精力.文章提出一种基于随机森林的论文自动分类方法,实现对海量论文的自动分类;提出一种基于LDA模型的主题挖掘方法,提取论文关键词并进行词云展示.实验数据采用Selenium技术抓取中国知网九大主题的1710篇论文,实验结果表明,该论文分类方法在准确率、召回率和F值上都有所提升,有效地挖掘出各学科的主题词,为下一步引文分析、文本挖掘和知识图谱构建提供有效支撑.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社