作者:付俊杰; 刘功申线性模型极值分布非平衡数据分类概率预测
摘要:在许多业务应用中,非平衡数据分类问题都会频繁出现,然而这个问题仍未得到很好的解决.除了直接预测数据对应的分类标签,许多应用还可能关心这个预测的准确性有多少.然而,已有的许多研究都主要集中在分类准确度上而忽略分类概率预测值的准确度.为了解决这个问题,提出了一种新的线性回归算法,该算法在广义线性模型的框架下,结合广义极值(generalized extreme value,GEV)分布作为链接函数以及校准损失函数作为目标优化函数,形成凸优化问题,利用广义极值分布的非对称性解决非平衡数据分类问题.另外,由于广义极值分布的形状参数对建模精度有较大影响,还提出了2种参数寻优方法.在实验部分,人工数据集和真实数据集均表明所提算法有着优异的分类性能以及准确的分类概率预测.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社