HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

CS-XMLSim:一种XML文档分类的改进方法

作者:张娜; 张东站; 段江娇欧氏距离编辑距离xml谱聚类

摘要:由于越来越多的结构化或半结构化的数据采用XML格式存储和交换,对XML数据的挖掘变得日益重要,其中对XML文档分类的研究越来越广泛。针对目前XML文档基于结构和内容的编辑距离分类算法的不足,本文在计算相似性度量时提出了一种新的改进方法CS-XMLSim方法,使得当XML文档结构相似而内容差异大时(即XML文档集由同一个DTD生成时)分类也有很高的准确率,并应用于k均值算法进行分类。CS-XMLSim方法在计算XML文档相似性时使用欧氏距离度量,其中计算内容相似性度量时运用谱聚类算法进行降维,对偏重于内容的XML文档分类时有更好的效果。实验结果表明,当XML文档结构相似内容差异大时,CS-XMLSim方法在提高分类准确率方面有了明显改善。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

心智与计算

《心智与计算》是一本有较高学术价值的大型季刊,旨在登载智能科学及其各个相关学科交叉研究的基础理论,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度,颇受业界和广大读者的关注和好评。

杂志详情