HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

一种基于属性权值分组聚类的相似重复记录检测方法

作者:王琛相似重复记录聚类特征属性字段匹配记录匹配

摘要:为了提高数据集中相似重复记录的检测效率,提出一种基于属性权值的分组聚类算法。该方法在记录集中选取特征属性,通过设定的权值对记录进行聚类,在形成的数据子集中进行字段匹配和记录匹配,来识别相似重复记录,并给出了相关算法。实验表明,该方法能减少字段的匹配次数和记录的匹配范围,节省运行时间,具有较高的查全率和查准率。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

宁波职业技术学院学报

《宁波职业技术学院学报》(双月刊)创刊于1997年,由浙江省教育厅主管,宁波职业技术学院主办,CN刊号为:33-1263/Z,自创刊以来,颇受业界和广大读者的关注和好评。 《宁波职业技术学院学报》立足港城、面向全国,关注学术发展前沿,注重理论探索和创新,创办了经济问题、职业教育研究、文学研究、教学探讨等栏目,并通过定位原则理清思路,深度发掘潜在资源,打造出“宁波帮研究”、“职业技术教育”、“高校管理”等几个有影响力的特色栏目。

杂志详情