HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

大数据中基于时态特征和混合式搜索的博客筛选挖掘

作者:张丽娜; 匡泰; 姜迪清博客筛选挖掘时态特征线性搜索差分进化大数据bm25

摘要:针对现存很多博客筛选挖掘方法的相关性程度比较松散以及信息检索方法的缺陷,提出一种基于时态特征和混合式搜索的方法。考虑到用户评论是组合证据的重要来源以及时间因素的影响,提出的方法将博客文章的平均评论数量、消息来源的BM25的相关性分数、最久博客文章的BM25分数和最新相关博文和最旧博文的时间范围作为时态特征集。另外,考虑到线性搜索的局部性优势以及差分进化搜索的全局优势,将两种信息搜索方式组合。实验使用Blog S06数据集,由博客主页、XML源文件和其博客入口页面组成,用于TREC 2007和TREC 2008的博客筛选挖掘实验。实验结果表明,提出的方法在运行时间和有效性方面获得了满意的效果。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

电信科学

《电信科学》(CN:11-2103/TN)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《电信科学》已入选中国中文优秀期刊、中国科技优秀期刊及中国期刊方阵,并被中文科技期刊数据库等国内多家数据库和科技文摘期刊收录。

杂志详情