作者:董宇欣 王莹洁 宁鹏飞 张耀元搜索引擎社会网络不确定图simrank相似度抽样策略
摘要:针对以往的搜索引擎日志分析都主要集中在用户行为分析、查询推荐及搜索引擎评价等方面,采用社会网络分析法对搜索引擎进行日志分析。以不确定图的方式逻辑表示搜索引擎的日志中查询词和网页的链接关系,通过基于不确定图的SimRank算法,计算查询词与网页的相似度,最终以相似度和查询词的加权方式建立网页描述库。针对概率抽样的3点基本要求,提出一种渐进式的抽样策略,从而保证采用抽样技术对于不确定图中SimRank值计算的准确性。实验表明该算法具有较好的准确率和可行性。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社