HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于互信息和关联规则的文本特征提取方法

作者:瞿学新; 朱全银; 严云洋; 李翔互信息网页分类关联规则文本特征

摘要:为改善传统互信息方法在网页分类中的效果,对互信息方法在词频、类间分布以及低信息量特征方面进行改善,提出了一种基于互信息和关联规则的文本特征提取方法。改进了传统互信息方法,引进词频和类间平衡因子,从而避免互信息对低词频特征值放大;改进互信息特征提取后,计算低信息量特征与高信息量特征的关联规则,以置信度为概率将低信息特征替换为对应规则中的高信息量特征;将置换后的样本集再进行向量化。实验表明,该方法相比传统的互信息方法具有较好的分类性能,F1值平均提高了约6%。将该方法应用于网页分类中,结果显示改进后的互信息方法在网页分类中具有较好的性能。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

淮阴工学院学报

《淮阴工学院学报》(双月刊)创刊于1988年,由江苏省教育厅主管,淮阴工学院主办,CN刊号为:32-1605/T,自创刊以来,颇受业界和广大读者的关注和好评。 《淮阴工学院学报》2004年被评为江苏省一级期刊,在自然科学领域设有数理科学、机械电子、信息控制、土木交通、化学化工、生物食品、农学园艺和管理工程等栏目,在哲学与社会科学领域设有哲学马克思主义理论、政治历史法律、语言文学艺术、社会经济管理、教育教学和图书情报档案等栏目,凡属国家和省、部级科研基金项目的论文,本刊将优先发表。

杂志详情