作者:张波; 周从华; 张付全; 张婷; 蒋跃明单核苷酸多态性选择模糊聚类特征选择支持向量机决策树朴素贝叶斯分类
摘要:在对高维少样本的遗传数据进行单核苷酸多态性(SNP)选择时,为能使所选SNP子集高度代表所有SNP信息,实现数据降维,在模糊C均值(FCM)算法的基础上提出一种改进方法GN-FCM。通过引入SNP权重因子量化SNP位点重要程度的差异性,同时将重点SNP邻域正则项引入模糊聚类的损失函数中,挖掘高度重要SNP与同邻域内其他SNP的关联性。实验结果表明,GN-FCM具有较好的收敛性,与DW-FCM算法相比,其构造的SNP子集在支持向量机、决策树和朴素贝叶斯分类中准确率分别提升5.73 %、3.40 %和3.79 %,F1值分别提升4.01 %、 3.20 %和 2.22 %。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社