作者:付剑生 徐林龙 林文斌职位搜索网络爬虫分布式搜索引擎
摘要:传统招聘网站所查寻的信息仅限于站内搜索,而且每个招聘网站往往都会有重复的招聘信息,导致重复投递,对求职者和招聘者都造成了资源浪费。文中研究和分析了基于Lucene的分布式全文搜索引擎Solrcloud,设计了全网职位搜索引擎系统。该系统采用Bloom Filter进行数据及URL的去重,通过使用Zookeeper提供分布式同步服务,并通过多线程来实现网页并发抓取。通过对系统的测试表明,该系统具有良好的可靠性和应用性,并在大数据量的情况下保证了搜索的效率及准确性。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社