作者:程新党; 张新刚; 赵学武免疫克隆算法淘宝店铺感知机网页分类特征选择
摘要:淘宝网个体店铺(以下简称网店)的属地判定是各地工商管理部门对网店进行有效监管的先决条件。针对网店页面属于半结构化文本、不同位置的分词特征重要性差别巨大、内容千差万别且存在大量冗余信息等问题,利用免疫克隆算法搜索有效特征子集降低特征维度,获得相应的感知机模型并用作分类器。感知机模型权重向量表现了不同网页位置特征词对属地判定贡献度的差异,可有效解决高维冗余特征和半结构化文本的分类问题。通过实时抓取网店页面,提取各网店部分特征值并使用模型进行属地判定实验,与无特征选择、基于粗輕集理论和遗传算法的特征选择的实验结果做比较,结果表明:该方法具有收敛速度快和分类效果好的优势,能够对淘宝网店进行较正确的属地判定,准确率达到95%,基本满足管理部门对属地监管的要求。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社