作者:孙辉; 陈晓云; 马志新文档聚类词频和反向词频语句词条矩阵文档矩阵集合
摘要:Web信息在以指数级的速度增长,然而传统搜索引擎的检索方式难以使用户找到精简而准确的信息.为此该文提出了一种基于语句-词条矩阵的聚簇式动态增长聚类算法.该平面分割的算法的整个工作过程有3个步骤:预处理Web数据,进行文本摘取和过滤处理;形成每个文档的语句-词条矩阵,构成若干文档的矩阵集合;通过聚簇式动态增长聚类算法,对相似文档进行聚类.对该算法进行了实验分析.结果表明,该算法在保持文档语义联系的同时,其对文档的聚类有较高的准确性.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
《清华大学学报·自然科学版》(CN:11-2223/N)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。
杂志详情