作者:姜鹏 宋继华dfchi统计量分类器主题爬取
摘要:该文利用DF与CHI统计量相结合的特征选取方法,针对互联网上对外汉语相关领域的网页进行特征提取,并在此基础上,构建了基于标题与正文相结合的两步式主题相关度判定分类器。基于该分类器做对外汉语相关主题的网页爬取工作,实验表明,效率和召回率比传统分类器都有较大程度的提高,目前该分类器已经用于为大型对外汉语语料库构建提供数据源。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
《中文信息学报》(CN:11-2325/N)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。
省级期刊
人气 652098 评论 60
部级期刊
人气 443551 评论 71
人气 238661 评论 36
人气 220602 评论 68