作者:李昂 温琪 顾星博 焦辛妮 佟海龙 袁重胜 ...数据模拟缺失值填补标签snp
摘要:目的 通过对单核苷酸多态性(SNPs)数据展开缺失值填补影响因素与填补效果的研究,为利用SNPs数据进行基因与疾病的关联研究提供科学依据。方法 以国际人类基因组单体型图计划(Hap Map计划)数据为原始数据,利用HAPGEN2软件,依据原始数据生成SNP基因型模拟数据,人为产生缺失数据并进行缺失值的填补,分析不同条件(4个水平的缺失比例、4个水平的参考数据样本量)的填补错误率。结果 数据缺失比例越小、参考数据样本量越大,填补的错误率越低(样本量50、100、150和200的平均错误率分别为7.01%、5.92%、5.67%和5.26%);2种缺失模式在缺失比例较大时(r^2=0.825),随机缺失填补(平均5.64%)较固定缺失填补(平均9.10%)填补错误率低,而当缺失比例较小时(r^2=0.9),固定位点缺失模式的填补错误率较低(平均4.96%),在各种条件下IMPUTE2的填补错误率为3%~13%。结论 缺失比例、参考数据样本量以及缺失模式对缺失数据填补的准确性有一定影响;对标签SNP数据进行缺失值填补,再进一步分析是一种有效的策略。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社