作者:郑长江; 王晨拥挤识别不平衡分类重采样方法交叉组合分类器
摘要:针对拥挤数据分布不平衡问题,提出了一种新的重采样方法———交叉组合重采样法。该方法是将随机向下采样法与 smote法相结合,对原始数据进行交叉采样,以减少采样法对原始数据的非均匀性破坏。通过仿真,得到比例为1∶10.1的非拥挤数据和拥挤数据原始样本。根据实际情况,通过交叉采样法,分别得到类比例为1∶5,1∶3以及1∶1的数据集,并对3种情况下的分类结果进行对比分析。选择朴素贝叶斯分类器、贝叶斯网络分类器及神经网络分类器,在不同比例数据集下,针对交叉组合重采样法和一般组合重采样法进行对比实验。实验结果证明:交叉组合重采样法能够更好地解决拥挤数据不平衡给分类器带来的问题。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社