作者:孙启蕴性别判断多视图学习数据挖掘
摘要:互联网技术不断发展,新浪微博作为公开的网络社交平台拥有庞大的活跃用户.然而由于用户数量庞大,且个人信息并不一定真实,造成训练样本打标困难.本文采用了一种多视图tri-training的方法,构建三个不同的视图,利用这些视图中少量已打标样本和未打标样本不断重复互相训练三个不同的分类器,最后集成这三个分类器实现用户性别判断.本文用真实用户数据进行实验,发现和单一视图分类器相比,使用多视图tri-training学习训练后的分类器准确性更好,且需要打标的样本更少.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社