HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

可增量的用户短文本聚类方法研究

作者:张仪; 陈国; 张再跃短文本语义归一化离线聚类在线聚类

摘要:随着大数据时代的到来,用户短文本数据呈爆炸性增长,充分利用聚类分析技术获取短文本中的有用信息显得十分重要。聚类分析作为一种重要的知识发现手段,是将对象按其特征的相似程度进行归类的过程。为此,提出了一种可增量面向用户短文本聚类方法。该方法包括离线聚类和在线聚类两大类,前者在短文本预处理的基础上,利用无关语词典对短文本中的无关语进行识别和清理,再利用词类词典对短文本进行语义归一化;同时还提出了基于多特征融合的相似度计算方法,以实现对文本的相关性聚类。后者则以离线聚类结果为特征,对在线文本进行在线聚类操作,将离线聚类结果和在线聚类结果进行合并,以生成最终的聚类结果。为验证该方法的有效性与可行性,与基于特征向量的相似度方法进行了对比实验。实验结果表明,该方法的聚类召回率可达73%,聚类精度达到87.7%,F值为79.6%,均优于基于特征向量的方法。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机技术与发展

《计算机技术与发展》(CN:61-1450/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《计算机技术与发展》在国内外有广泛的覆盖面,国内读者遍布全国32个省(市、自治区)以及港、澳、台地区,境外读者分布在北美、西欧、韩国、日本等38个国家和地区。

杂志详情