基于遗传算法的一种不平衡数据集采样方法GSA

作者：张巡; 黎平; 刘萍分类模型样本不平衡遗传算法smote算法gsa算法

摘要：分类模型的训练是机器学习中的基本问题。分类模型的优劣关键在于训练集样本的质量。传统的分类模型默认各样本类别中样本数量基本均衡,而忽略了样本不平衡的影响,但不平衡样本对模型的预测能力影响非常大。为了保证数据的平衡性,提出一种基于遗传算法（Genetic Algorithm）与SMOTE（Synthetic Minority Oversampling Technique）算法融合的样本合成方法—GSA算法（Genetic-SMOTE Algorithm）。该算法针对数量少的样本类别,通过对样本特征进行编码,结合遗传算法思想合成新样本,以提高样本的均衡性。实验对比证明,本算法保证了新合成样本与原样本的相似性,丰富了样本集的多样性,从而提高了模型的分类精度。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

贵州科学

《贵州科学》（CN：52-1076/N）是一本有较高学术价值的大型双月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《贵州科学》主要刊登自然科学各学科基础研究、应用研究等方面具有创新的、高水平、有重要意义的学术论文，研究报告，研究简报等原著，并刊登基于本人研究工作的具有独立见解和分析的综述。

杂志详情

服务推荐

贵州科学相关期刊

基于遗传算法的一种不平衡数据集采样方法GSA

服务推荐

在线咨询

杂志订阅

期刊推荐

科技风

魅力中国

科学与财富

科学中国人