作者:苏雪峰; 李茹; 张虎体裁分类词性特征符号特征词汇特征支持向量机
摘要:针对高考答题系统中现代文阅读理解的体裁自动分类问题,采用统计分析的方法分析文学作品和科技文在词性分布、标点符号和词汇使用上的差异,提出基于词性、符号和词汇特征的体裁分类特征抽取方法和基于类内和类间离差的特征评价方法,在此基础上使用SVM算法训练分类器。实验结果表明,特征抽取、特征选择、分类方法可行有效,分类器在高考测试集上平均准确率达到96%,能较好地解决高考语文现代文阅读材料体裁自动分类问题。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社