HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于统计和机器学习的中文Web网页正文内容抽取

作者:游贵荣; 陆玉昌信息抽取bp人工神经网络搜索引擎

摘要:在搜索引擎中为了减小索引文件的大小、加快检索的速度和提高检索的精确度,必须对网页中的文本内容去噪并有效地抽取网页中的主题信息.根据对大量网页的特征分析,本文提出了一种较为简单和实用的网页主题信息抽取方法,该方法利用主题信息在网页中分布相对集中和文本密度较高的特征,利用BP人工神经网络进行自动识别,实验结果表明,该方法对于信息类网站平均准确率较高,具有一定的实用性.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

福建商学院学报

《福建商学院学报》(CN:35-1333/G4)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《福建商学院学报》已被“中国优秀期刊(遴选)数据库”“中国学术期刊(光盘版)”“万方数据库——中国数字化期刊群”“中文科技期刊数据库(维普网)”“台湾华艺CEPS中文电子期刊”“北京世纪超星域出版”等多个数据库全文收录,并已加入中国知网“优先数字出版”。

杂志详情