HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于遗传算法的一种不平衡数据集采样方法GSA

作者:张巡; 黎平; 刘萍分类模型样本不平衡遗传算法smote算法gsa算法

摘要:分类模型的训练是机器学习中的基本问题。分类模型的优劣关键在于训练集样本的质量。传统的分类模型默认各样本类别中样本数量基本均衡,而忽略了样本不平衡的影响,但不平衡样本对模型的预测能力影响非常大。为了保证数据的平衡性,提出一种基于遗传算法(Genetic Algorithm)与SMOTE(Synthetic Minority Oversampling Technique)算法融合的样本合成方法—GSA算法(Genetic-SMOTE Algorithm)。该算法针对数量少的样本类别,通过对样本特征进行编码,结合遗传算法思想合成新样本,以提高样本的均衡性。实验对比证明,本算法保证了新合成样本与原样本的相似性,丰富了样本集的多样性,从而提高了模型的分类精度。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

贵州科学

《贵州科学》(CN:52-1076/N)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《贵州科学》主要刊登自然科学各学科基础研究、应用研究等方面具有创新的、高水平、有重要意义的学术论文,研究报告,研究简报等原著,并刊登基于本人研究工作的具有独立见解和分析的综述。

杂志详情