作者:胡六四lda网页采集动态内容
摘要:根据网页动态内容提出了一种具体采集方法,利用基于关联的LDA(Latent Dirichlet Allocation)算法,设计了一个基于内容的网页动态内容采集算法.本算法能为网页中的动态内容提供自动注释,并且利用了动态内容和文本内容之间的语义关系.基于关联的LDA提供了概念级匹配,来建立文本和网页动态内容之间的对应关系,以达到更高检索精确度.实验结果表明,与基于SVM方法相比,本算法具有较高的精确度和召回率.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社