作者:张丽娜; 匡泰; 姜迪清博客筛选挖掘时态特征线性搜索差分进化大数据bm25
摘要:针对现存很多博客筛选挖掘方法的相关性程度比较松散以及信息检索方法的缺陷,提出一种基于时态特征和混合式搜索的方法。考虑到用户评论是组合证据的重要来源以及时间因素的影响,提出的方法将博客文章的平均评论数量、消息来源的BM25的相关性分数、最久博客文章的BM25分数和最新相关博文和最旧博文的时间范围作为时态特征集。另外,考虑到线性搜索的局部性优势以及差分进化搜索的全局优势,将两种信息搜索方式组合。实验使用Blog S06数据集,由博客主页、XML源文件和其博客入口页面组成,用于TREC 2007和TREC 2008的博客筛选挖掘实验。实验结果表明,提出的方法在运行时间和有效性方面获得了满意的效果。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社