HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

网络家用纺织品资源抽取方法

作者:杨娟; 吴志明; 张远鹏家用纺织品资源库深网信息抽取

摘要:针对目前网络家纺资源采集方式在处理海量网络资源尤其是深网资源时效率低下的问题,提出了一种自动化的网络家纺资源抽取方法。该方法首先根据查询接口属性有限性和收敛性的特征,构建领域模型对深网查询接口进行识别,然后利用家纺领域关键词自动填写查询接口,抽取深网家纺资源;对于返回的查询页面,为过滤与抽取与主题无关的噪声信息,对页面进行视觉分块,利用标记的分块样本数据训练分块重要度模型,并利用该模型过滤与主题无关的噪声信息。实验结果表明,领域模型识别深网查询接口的阳性预测值和准确率比基于规则的方法分别提高了8%和6%,分块重要度模型过滤噪声的准确率和召回率的调和平均数值在3个等级上比基于规则方法的正确率平均提高了12.90%。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

纺织学报

《纺织学报》(月刊)创刊于1979年,由中国科学技术协会主管,中国纺织工程学会主办,CN刊号为:11-5167/TS,自创刊以来,颇受业界和广大读者的关注和好评。 《纺织学报》促进学术交流,推动科学研究。主要读者对象是纺织高等院校师生、科研人员、企业技术人员及管理人员等。

杂志详情