HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于分布式Docker群集的招聘网站职位数据持续爬取和分析

作者:张梁斌; 柴晖; 王渊明; 万健招聘职位网页爬虫docker群集swarm可视化

摘要:许多大型在线求职平台由于招聘信息不统一,求职者难以在丰富冗余的求职信息中找到合适精准的信息。利用网页爬虫技术,设计实现了分布式Docker容器群集架构下招聘网站的职位数据持续爬取和分析展示。首先,利用Swarm容器管理工具构建多台物理主机的Docker群集;然后,利用Python的Scarpy框架对主流招聘网站的非结构化职位信息进行持续性分布式网络爬虫,涉及URL地址去重、数据采集、提取和清洗等,产生招聘职位的MYSQL数据库;最后,对求职数据库进行分析挖掘,生成职位数量分布热力图、岗位技能画像和可视化展示的统计图表,可为求职者提供直观的职位信息参考。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

浙江万里学院学报

《浙江万里学院学报》(双月刊)创刊于1988年,由浙江省教育厅主管,浙江万里学院主办,CN刊号为:33-1274/Z,自创刊以来,颇受业界和广大读者的关注和好评。 《浙江万里学院学报》主要刊登本院基础学科(数学、外语)、计算机、管理、经贸、法律、文学艺术、电子信息、工程技术、生命科学、文化传播、教育教学方面的学术论文。

杂志详情