面向词权重的主题识别应用研究

作者：阮光册; 夏磊主题模型lda模型ftidf权重主题识别

摘要：[目的/意义]在文本主题求解时,LDA模型更倾向于高频率的词项,造成主题的语义特征和内容区分度不高.[方法/过程]从文本的词权重入手,综合考虑词项在文本集合中的全局统计特征和局部语义特征,衡量词语在文本中的重要性,并将词语的特征值作为LDA主题模型的输入,改变LDA模型生成词的概率.[结果/结论]实验表明,结合词权重的LDA模型,具有更好的模型拟合度,同时能够较好的识别语料库中主要话题,提高了主题词分布的广度和主题的语义区分度.通过新闻文本数据验证了该方法的可行性与有效性.[局限]对词语的局部语义特征描述需要大数据量的计算.

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

情报理论与实践

《情报理论与实践》（CN：11-1762/G3）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情

服务推荐

情报理论与实践相关期刊

面向词权重的主题识别应用研究

服务推荐

在线咨询

杂志订阅

期刊推荐

科技情报开发与经济

图书情报导刊

轿车情报

情报科学