作者:王芳; 于浩; 谭红叶; 赵铁军网页分块链接块相关链接提取
摘要:每个网页都包含了大量的超链接,其中既包含了相关链接,也包含了大量噪声链接。提出了一种基于链接分块的相关链接提取方法。首先,将网页按照HTML语言〈table〉签将网页分成许多的块,从块中提取链接。形成若干链接块;其次,根据相关链接的成块出现,相关链接文字与其所在网页标题含相同词等特征,应用规则与统计相结合的方法从所有链接块中提取相关链接块。相关链接提取方法测试结果,精确率在85%以上,召回率在70%,左右,表明该方法很有效。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社