作者:程光洋; 廉彬网络爬虫adaboost养老信息政府新闻信息筛选
摘要:面对信息社会中老年人对养老信息的关注与需求,本文使用基于Python的网络爬虫技术对民政部网站的新闻和公文进行抓取。针对门户网站的新闻特点,对数据抓取过程以及训练集进行优化,使用AdaBoost算法对给定的文本集合进行训练,得到筛选模型。提供一种有效的特征选择方法,采用χ2统计量准则,有效降低了特征维数,然后用该模型对采集的信息进行筛选得到养老信息。最后,对信息筛选结果进行了分析。实验分析结果表明,本文提出的方法可以实现对养老信息的有效筛选,在应用上可以满足老年人对养老信息的获取需求。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社