作者:胡俊刚; 董守斌; 陈晓志; 张元丰入口页面检索url类型优先级信息检索
摘要:入口页面(主页)查询结果只有一个,并且用户的查询词常常是简短的页面名称,由于它要求更高的精准度,一般认为是较为困难的.依据语言模型分析,挖掘出对中文入口页面(entry page)检索有意义的查询域作为基准检索的内容域.同时考虑到非内容网页优先级(URI,type等)特征的重要性,建立综合内容域和非内容网页特征的检索模型,通过URL类型优先级(URL-type prior)的概率统计,发现入口页面和其相关的子页面之间存在比较大的联系.据此提出基于相关子页面的入口页面提取算法PERS(page extracted from relevant sub-page).对比实验数据表明,PERS算法对检索的性能有较大提高.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
《山东大学学报·理学版》(CN:37-1389/N)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《山东大学学报·理学版》为理工科综合性学术期刊。旨在反映该校自然科学领域中的最新研究成果,促进学术交流,活跃学术思想。
杂志详情