HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于LDA的多特征融合的短文本相似度计算

作者:张小川; 余林峰; 张宜浩lda主题模型短文本相似度主题相似度词语共现度

摘要:近年来,LDA(Latent Dirichlet Allocation)主题模型通过挖掘文本的潜在语义主题进行文本表示,为短文本的相似度计算提供了新思路。针对短文本特征稀疏,应用LDA主题模型易导致文本相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征融合的短文本相似度算法。该方法融合了主题相似度因子ST(Similarity Topic)和词语共现度因子CW(Co-occurrence Words),建立了联合相似度模型以规约不同ST区间下CW对ST产生的约束或补充条件,并最终权衡了准确性更高的相似度结果。对改进后的算法进行文本聚类实验,结果表明改进后的算法在F度量值上取得了一定程度的提升。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机科学

《计算机科学》(CN:50-1075/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《计算机科学》报导国内外计算机科学与技术的发展动态,以其新颖、准确、及时为特色,突出动态性、综述性、学术性,“前沿学科”与“基础研究”相结合;“优秀技术”与“支撑技术”相结合;“倡导”与“争鸣”相结合。

杂志详情