HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于模糊综合评判的相似重复记录清洗方法

作者:郭文龙; 董建怀相似重复记录属性模糊综合评判算法

摘要:相似重复记录清洗对于提高数据仓库的数据质量有极其重要的意义,字段匹配算法是最常用的检测算法之一。针对该算法中属性权值确定主观性过强的问题,提出基于多用户模糊综合评判确定属性等级并根据用户评价结果计算属性权值的方法。在此基础上,进一步将属性切分为原子,通过计算原子相似度进而计算属性相似度,最后进行记录判重。实验结果表明该方法能较客观地反映属性的重要程度,通过切分属性为原子并判重也进一步提高了检测的精度。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

北京信息科技大学学报·自然科学版

《北京信息科技大学学报·自然科学版》(CN:11-5866/N)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《北京信息科技大学学报·自然科学版》是美国“剑桥科学文摘(CSA)数据库、俄罗斯“文摘杂志”、“中国期刊全文数据库”、“中国优秀期刊(遴选)数据库”、“中国知网”、“万方”等多家数据库来源期刊。

杂志详情