HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

对科技论文的分类研究

作者:李森; 马军; 赵嫣; 雷景生科技论文文本分类层次结构分类精度分类效率

摘要:针对科技论文具有半结构化的特点,提出利用科技论文的元数据的多层次分类模型.这里元数据包含论文的标题、关键词集合和摘要等信息.实验证明,若只利用元数据,可以取得与传统的基于全文信息分类方法近似的分类精度;若基于领域知识所产生的分类法。先利用元数据进行粗分类,然后再进行全文分类,所得到的分类精度要高于已知最好算法.因元数据的尺寸远远小于论文全文的尺寸,而粗分类后每类的论文数要远远小于全体论文数,故在分类类别数目较多且分类文本分布较为平均的情况下,可极大地缩短分类的时间.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

山东大学学报·理学版

《山东大学学报·理学版》(CN:37-1389/N)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《山东大学学报·理学版》为理工科综合性学术期刊。旨在反映该校自然科学领域中的最新研究成果,促进学术交流,活跃学术思想。

杂志详情