作者:李中原 杨守文向量空间模型特征表示tfidf
摘要:采用经典的向量空间模型对网页文本进行分类。由于传统特征项权重计算公式TFIDF在网页关键词计算和关键词类间区分度不高等问题的存在,本文将网页结构分成两个部分,含有标题、元数据、链接锚文件等的关键词部分和网页的正文部分,对关键词部分的权重进行了加强,而对网页正文部分采用改进的IDF进行计算,使关键词在类的区分度的效果上得到一定程度的提升,试验证明该方法是可行的。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
《计算机与现代化》(CN:36-1137/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《计算机与现代化》自创刊以来,以理论联系实际、促进应用开发为宗旨,主要刊登计算机专业方面的新理论、新技术及其在各个领域中应用成果的论文,设有系统分析与设计、软件工程、网络与通讯、过程控制、辅助设计、中文信息技术、人工智能、综合述评、应用与实践等栏目,既有相当的学术水平,又有现实的指导作用。
部级期刊
人气 850877 评论 75
人气 230737 评论 65
人气 215611 评论 35
省级期刊
人气 213357 评论 71