HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

对有关联数据缺失填补方法的改进

作者:程理; 张楠填补缺失数据聚类分析回归填补马氏距离

摘要:本文根据生物样本数据之间有关联性的特点,对一种最基本的缺失数据填补办法进行逐步优化。首先对数据进行预处理,摘取部分R统计软件中自带的iris鸢尾花数据,每一行代表一株花的记录,并人为随机挖空。其次,使用最基本的均值填补对缺失数据进行填补。然后,针对均值填补法的主要缺点,提出改进方法:对样本数据进行系统聚类,再对分类后的各组数据分别进行均值填补。考虑样本数据之间的关联性,对分类之后的填补方法再一次进行优化,采用回归填补法填补缺失数据。比较基本的均值填补、分类后的均值填补、分类后的回归填补,发现三者的误差率逐步递减,证明本文提出的优化方法是可行的。最后,由于仍然存在相当大的误差,考虑到分类方法是基于欧氏距离,没有考虑指标间的相关性,本文提出马氏距离作为改进。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

科技创新导报

《科技创新导报》(旬刊)创刊于2004年,由中国航天科技集团公司主管,中国宇航出版有限责任公司;北京合作创新国际科技服务中心主办,CN刊号为:11-5640/N,自创刊以来,颇受业界和广大读者的关注和好评。

杂志详情