结合内容和标签的Web文本聚类研究

作者：顾晓雪; 章成志社会标签特征选择文本聚类

摘要：【目的】探索社会标签与文本内容的结合对文本聚类的影响。【方法】采用Engadget中英文博客数据，使用TF×IDF、TextRank、TextRank×IDF三种特征抽取方法，线性函数和Sigmod函数进行相似度加权，AP算法进行聚类。【结果】结果表明，TF×IDF的聚类效果最好，两种加权对英文博文聚类有不同程度的改善，但在中文博文聚类中，Sigmod加权结果稍有下降，线性加权比Sigmoid加权方法效果更好。【局限】没有找出标签相似度与内容相似度最佳的权重系数。AP聚类算法不能应用于大数据，聚簇过多影响聚类结果的展示。【结论】社会标签与文本内容相似度的线性加权能改善Web文本聚类结果。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

数据分析与知识发现

《数据分析与知识发现》（CN：10-1478/G2）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《数据分析与知识发现》内容定位于广泛吸纳计算机科学、数据科学、情报科学以及数字科研、数字教育和数字文化等领域的技术与方法，研究数据驱动的语义计算、内容分析、数据挖掘、知识发现、智能管理和决策支持等方面的技术、方法、系统以及支撑设施、政策与机制等，尤其是聚焦从海量、异构、分布、动态、甚至富媒体数据中挖掘和发现知识以支持研究、管理和决...

杂志详情

结合内容和标签的Web文本聚类研究

服务推荐

在线咨询

杂志订阅

期刊推荐