基于序列数据挖掘的中文网页特征选择方法

作者：谷峰; 刘晨曦; 吴扬扬序列数据挖掘pat树净频率频繁字串中文网页分类

摘要：提出了一种基于序列数据挖掘的中文网页候选特征的选择方法，并用于中文网页分类模型．该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串，通过净频率计算，挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等，并结合CHI算法得到文本特征．实验表明。该算法不仅能挖掘出传统方法所选择出的绝大部分特征，还能挖掘出一些有意叉的、切词系统词库中没有的、能反映分类特点的人名，地名，新词、常用语、外文单词等．

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

山东大学学报·理学版

《山东大学学报·理学版》（CN：37-1389/N）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《山东大学学报·理学版》为理工科综合性学术期刊。旨在反映该校自然科学领域中的最新研究成果，促进学术交流，活跃学术思想。

杂志详情

服务推荐

山东大学学报·理学版相关期刊

基于序列数据挖掘的中文网页特征选择方法

服务推荐

在线咨询

杂志订阅

期刊推荐

山东医药

佳木斯教育学院学报

赤峰学院学报·自然科学版

重庆科技学院学报·社会科学版