HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于重采样和集成学习的弥漫大B细胞淋巴瘤患者复发风险预测模型

作者:王蕾; 赵志强; 余红梅; 郑楚楚; 黄雪倩; ...弥漫大b细胞淋巴瘤复发不平衡数据重采样集成学习分类预测

摘要:目的对某肿瘤医院血液科2011-2015年283名弥漫大B细胞淋巴瘤患者进行达到完全缓解后三年内的复发风险预测,为患者三年内的复发情况提供参考。方法用logistic回归进行复发影响因素分析。采用重采样(包括SMOTE等三种方法)处理不平衡数据,同时基于boosting集成分别构建C5.0决策树、SVM和logistic回归复发风险预测模型。结果由logistic回归可知,Ki-67(P=0.006,OR=1.826)、LDH是否升高(P=0.012,OR=2.084)、原发纵膈肿物(P=0.033,OR=0.333)及疾病等级(P=0.001,OR=1.605)是弥漫性大B细胞淋巴瘤患者三年复发的重要影响因素。通过将训练集与测试集回代对各种模型性能进行评价,并用五种评价指标的比较模型性能可知,集成模型均优于其对应的单个学习器;平衡后数据构建模型性能均优于未平衡数据构建模型,其中SMOTE最优;在测试集验证的模型中,经过SMOTE平衡数据构建SVMBOOST集成模型(准确率=0.93,F值=0.94,AUC=0.93,Rmse=0.26,G-mean=0.93,灵敏度=0.97)和C5.0BOOST模型(准确率=0.94,F值=0.95,AUC=0.94,RMSE=0.24,G-mean=0.94,灵敏度=0.94),均有较优的表现。结论基于重采样和集成学习构建的经过SMOTE平衡后SVMBOOST模型达到预期效果。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

中国卫生统计

《中国卫生统计》(CN:21-1153/R)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《中国卫生统计》是中国卫生统计学会的会刊,主要读者对象为各级卫生机构的卫生统计人员、卫生技术人员和高等医学院校卫生统计专业的教学和科研人员。

杂志详情