作者:曲佳彬; 欧石燕学科主题演化主题过滤lda主题模型演化分析
摘要:【目的】针对采用LDA模型识别出的主题中往往含有一些无意义的主题,严重影响演化分析的精确性问题,本文提出采用主题过滤和主题关联的方式,构建学科主题在时间序列上的演化路径,并分析主题在内容上的演化情况。【方法】计算主题在所有文献中出现的概率,识别并过滤边缘主题;根据主题中词汇分布的倾向性,识别并过滤无意义的噪音主题。将过滤后的主题作为主题演化分析的主题,通过计算相邻时间段中主题间的JS散度识别相关主题,从而根据主题间的相关关系构建主题演化路径。【结果】以"机器学习"领域的文献为例,构建学科主题演化路径,展示主题间的新生、消亡、继承、分裂和合并5种演化方式,并以微观的"图像识别"为例,验证了方法的有效性。【局限】在构建主题演化路径时,采用人工判断方法设置阈值,具有一定的主观性。【结论】本文方法避免了不重要的边缘主题和无意义的噪音主题对相邻时间段中相关主题识别造成的干扰,提高了所构建的主题演化路径的准确性,能够更为准确地展示学科主题的演化规律。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社