作者:孙艳歌; 王志海; 白洋数据流概念漂移集成分类类不平衡
摘要:大部分数据流算法都是基于类分布大致平衡这一假设的,然而在现实世界中数据流中类的分布往往是不平衡的.同时,数据流中目标概念可能会随着时间发生变化,即概念漂移.本文针对数据流中的概念漂移和类不平衡问题,提出了一种基于集成的不平衡数据流分类算法.在分类之前加入采样方法应对类不平衡问题,并采取有效的基分类器更新和加权策略应对概念漂移现象,从而提高分类器的性能.针对本文所提出的算法,和几种经典学习算法,在人工合成和真实数据集上进行了广泛的对比实验.实验结果表明本文所提出的算法,其整体分类性能优于其他算法,更能适应存在概念漂移和类不平衡的数据流环境.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社