HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于多特征多分类器集成的专利自动分类研究

作者:贾杉杉; 刘畅; 孙连英; 刘小安; 彭涛专利分类段落向量主题向量分类器集成

摘要:【目的】为了准确地给专利申请书分配IPC分类号,本文提出一种基于多特征多分类器集成的专利自动分类方法。【方法】使用从专利申请书中提取的全词典TFIDF特征、信息增益词典TFIDF特征、段落向量特征、主题模型向量特征,分别训练朴素贝叶斯、支持向量机、AdaBoost分类器,以此构建特征–类别矩阵,并结合F1权重矩阵集成,获得最终IPC预测分类号。【结果】对2014年–2016年"发动机或泵"领域的10个小类进行分类,使用Top Prediction、All Categories和Two Guesses三种评估方法得到准确率分别为:78.9%、80.1%、91.2%。【局限】训练仅仅使用了2014年–2016年共三年的专利数据,数据规模有限。【结论】在"发动机或泵"领域,本文方法能够有效地提高专利文本分类的准确率。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

现代图书情报技术

《现代图书情报技术》是一本有较高学术价值的月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度,颇受业界和广大读者的关注和好评。 重要通知:《现代图书情报技术》杂志已正式更名为《数据分析与知识发现》杂志。

杂志详情