HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

对基于MPN的相似重复记录识别算法的改进

作者:刘伟; 曹先彬数据清理相似重复记录字符串匹配mpn传递闭包

摘要:相似重复记录识别是数据清理中的一个关键问题.文章针对常用的多趟邻接排序法提出了两点改进:一是在多趟排序识别过程中直接合并有重叠的相似记录集,取消了最后计算传递闭包的环节;二是利用关键字按字典序排序的特性,在求编辑距离之前先过滤前面的公共子串,减少了相似记录比较的开销.文章最后给出了改进算法与原算法的对比试验结果.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

科技与创新

《科技与创新》(CN:14-1369/N)是一本有较高学术价值的大型半月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情