作者:吴园园; 申立勇支持向量机模糊多类支持向量机噪声不平衡数据类重叠度
摘要:传统的欠采样方法容易丢失重要的样本信息,且其实验结果的稳定性较差。针对上述问题,提出一种基于类重叠度欠采样的不平衡数据模糊多类支持向量机算法。该算法首先采用LOF局部离群点因子和箱线图的方法清洗训练数据集中的噪声样本,然后根据类重叠度抽取对分类起关键作用的支持向量,并且将代表每个样本点重要程度的类重叠度作为隶属度值,构造模糊多类支持向量机。实验结果表明,该算法克服了随机欠采样的支持向量机容易丢失重要样本信息和实验结果不稳定的缺点,且很好地提升了支持向量机在不平衡且含噪声的数据集上的分类精度,并保持较高的计算效率。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社