HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

一种网络论坛结构化数据的通用提取算法

作者:李春虎; 齐美玲; 候亚璇网络论坛特征识别结构化数据数据提取

摘要:在当今大数据的时代,很多人会在网络论坛上发表自己的观点和看法,为舆情监测、商业决策等工作提供了大量参考信息。但这些信息往往以半结构化的形式存放在论坛页面中,并且不同论坛网站采用的页面结构也不尽相同。针对这一问题,设计一种基于特征识别的通用提取算法,可以从不同结构的论坛页面中提取出结构化的数据(包括标题、作者、发帖时间和帖子正文)。对回帖数较少/较多的情况、大量网站使用论坛软件进行管理的实际,设计不同的提取方案。最后,设计一个综合的通用论坛数据提取算法,在包含77种、177个网页论坛上进行测试,测试结果表明,算法具有较好的提取效果,可用于数据采集、舆情分析等工作。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

科技创新导报

《科技创新导报》(旬刊)创刊于2004年,由中国航天科技集团公司主管,中国宇航出版有限责任公司;北京合作创新国际科技服务中心主办,CN刊号为:11-5640/N,自创刊以来,颇受业界和广大读者的关注和好评。

杂志详情