基于多元特征的文本阅读难度自动分级研究

作者：程勇; 徐德宽; 吕学强多元特征阅读难度自动分级

摘要：【目的】实现文本阅读难度自动分级。【方法】采用基于多元特征的机器学习方法实现对文本难度的分析和判别,包括词频特征、结构特征、主题特征、深度特征等。这些特征从不同角度对文本的内容进行描述。在此基础上,对这些多元特征进行融合,并在多种分类器上进行文本阅读难度自动分级实验。【结果】利用本文提出的方法在面向中学英语考试的阅读理解文本上进行实验,最终在测试集上的正确率达到0.88,性能相较传统的阅读分级方法有较大提升。【局限】由于人工标注的高成本,目前的阅读难度数据集在数量、规模、难度标注程度上都有相应的限制。这在一定程度上影响了本文方法的应用。【结论】本文提出的多元特征提升了机器对阅读文本的分析和理解能力,使机器能够在理解文本内容的基础上对文本的阅读难度进行自动评级。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

数据分析与知识发现

《数据分析与知识发现》（CN：10-1478/G2）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《数据分析与知识发现》内容定位于广泛吸纳计算机科学、数据科学、情报科学以及数字科研、数字教育和数字文化等领域的技术与方法，研究数据驱动的语义计算、内容分析、数据挖掘、知识发现、智能管理和决策支持等方面的技术、方法、系统以及支撑设施、政策与机制等，尤其是聚焦从海量、异构、分布、动态、甚至富媒体数据中挖掘和发现知识以支持研究、管理和决...

杂志详情

基于多元特征的文本阅读难度自动分级研究

服务推荐

在线咨询

杂志订阅

期刊推荐