作者:张峰伟; 陈兴蜀; 尹学渊; 刘莉伟数据挖掘粒子群算法数据预处理web使用挖掘
摘要:针对传统的Web使用挖掘数据清理方法不再适用于现有网络环境的现状,提出了一种Web使用挖掘数据清理方法。该方法提出以网络流量作为Web使用挖掘的数据来源,将数据清理的问题转变为对用户显式操作产生的HTTP会话的识别问题,使用二进制粒子群算法(BPSO)选出最能精确识别用户显式HTTP会话的特征子集,利用选择出的特征子集生成决策树对用户显式HTTP会话进行识别。实验结果表明:该方法能够准确、有效地识别出用户显式HTTP会话,对日志记录数的压缩率达到98.7%,能够完成数据清理的任务,为之后的数据挖掘提供有力的支持。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社