HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

数据清理研究

作者:张志兵; 李华旸; 张勇dmcleaner数据集成数据清理

摘要:异构数据的数据清理,侧重于重复记录,异常数值的探测,有效地发现数据源中的重复记录、异常等,笔者通过增加过滤条件的方法提高了字符串匹配算法的效率,加快了重复记录的识别,另外在刷新数据仓库的数据提出了增量式算法,有效地减少了比较的次数,节省了大量时间并确保数据仓库中数据的质量。文章实现了一个数据清理工具原型—DMCleaner,并用其进行了试验,结果表明采用了这些改进以后,数据清理的速度、效率和正确性都有了很大的提高,数据质量得到了保证。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机工程与应用

《计算机工程与应用》(CN:11-2127/TP)是一本有较高学术价值的大型半月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情