分布式环境下的文本聚类研究与实现

作者：赵华茗分布式环境聚类文本聚类hadoopmahout

摘要：【目的】通过开源工具，构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础，通过词聚类指导文本聚类和分类。过程包括：使用开源分词器等工具进行训练集的文本预处理，结合Mahout数据挖掘平台对处理后的词集进行聚类分析，最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法，可有效解决海量文本的词聚类瓶颈问题。经测试，当训练文本集增加到100，迭代收敛阈值为0．01时，词聚类结果较理想。【局限】测试数据规模有限，仅限于新闻数据，基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤，有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

数据分析与知识发现

《数据分析与知识发现》（CN：10-1478/G2）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《数据分析与知识发现》内容定位于广泛吸纳计算机科学、数据科学、情报科学以及数字科研、数字教育和数字文化等领域的技术与方法，研究数据驱动的语义计算、内容分析、数据挖掘、知识发现、智能管理和决策支持等方面的技术、方法、系统以及支撑设施、政策与机制等，尤其是聚焦从海量、异构、分布、动态、甚至富媒体数据中挖掘和发现知识以支持研究、管理和决...

杂志详情

分布式环境下的文本聚类研究与实现

服务推荐

在线咨询

杂志订阅

期刊推荐