作者:张巡; 黎平; 刘萍分类模型样本不平衡遗传算法smote算法gsa算法
摘要:分类模型的训练是机器学习中的基本问题。分类模型的优劣关键在于训练集样本的质量。传统的分类模型默认各样本类别中样本数量基本均衡,而忽略了样本不平衡的影响,但不平衡样本对模型的预测能力影响非常大。为了保证数据的平衡性,提出一种基于遗传算法(Genetic Algorithm)与SMOTE(Synthetic Minority Oversampling Technique)算法融合的样本合成方法—GSA算法(Genetic-SMOTE Algorithm)。该算法针对数量少的样本类别,通过对样本特征进行编码,结合遗传算法思想合成新样本,以提高样本的均衡性。实验对比证明,本算法保证了新合成样本与原样本的相似性,丰富了样本集的多样性,从而提高了模型的分类精度。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社