HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于重采样技术在医学不平衡数据分类中的应用研究

作者:闫慈; 田翔华; 阿拉依·阿汗; 张伟文; 曹...代谢综合征不平衡数据集重采样技术神经网络决策树

摘要:目的 以代谢综合征为切入点,探讨不平衡数据对分类算法的影响,并运用重采样技术对数据进行平衡化处理,比较神经网络、决策树的分类性能。方法 (1)BP神经网络分类不同比例的不平衡数据集。(2)采用随机过采样、随机欠采样、混合采样和人工合成数据四种重采样技术,比较数据重采样前、后及四种数据重采样间使用神经网络、决策树分类的性能,以F-Measure,G-mean和AUC作为模型评价指标。结果 (1)随数据集不平衡比例的增加,AUC值逐渐减小,表明分类算法的分类性能随不平衡数据集不平衡比例的加剧而降低。(2)BP神经网络与C4.5决策树作用于原不平衡数据集分类代谢综合征,BP神经网络AUC值高于C4.5决策树,表明对不平衡数据集,BP神经网络的分类性能优于C4.5决策树。(3)四种重采样技术作用于BP神经网络后,除人工合成数据外,随机过采样、随机欠采样、混合采样分类性能均有提高,随机过采样分类性能最大。(4) 四种重采样技术作用于C4.5决策树后,其分类性能均有提高,且随机过采样分类性能最大,人工合成分类技术分类性能最低,此外,决策树均显示空腹血糖、高密度脂蛋白、BMI、舒张压和年龄是代谢综合征的主要影响因素。结论 分类算法的分类性能随数据集中患病率的降低而下降。采用随机过采样提高了分类算法的分类性能。建议在应用分类算法对医学不平衡数据分类前,采用随机过采样技术以提高分类性能。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

中国卫生统计

《中国卫生统计》(CN:21-1153/R)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《中国卫生统计》是中国卫生统计学会的会刊,主要读者对象为各级卫生机构的卫生统计人员、卫生技术人员和高等医学院校卫生统计专业的教学和科研人员。

杂志详情