HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于序列数据挖掘的中文网页特征选择方法

作者:谷峰; 刘晨曦; 吴扬扬序列数据挖掘pat树净频率频繁字串中文网页分类

摘要:提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结合CHI算法得到文本特征.实验表明。该算法不仅能挖掘出传统方法所选择出的绝大部分特征,还能挖掘出一些有意叉的、切词系统词库中没有的、能反映分类特点的人名,地名,新词、常用语、外文单词等.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

山东大学学报·理学版

《山东大学学报·理学版》(CN:37-1389/N)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《山东大学学报·理学版》为理工科综合性学术期刊。旨在反映该校自然科学领域中的最新研究成果,促进学术交流,活跃学术思想。

杂志详情