作者:张荔自动作文评分效度测量性归纳性外推性
摘要:研究人员对常用的自动作文评阅(AWE)系统PEG、IEA、e-rater、IntelliMetric等都开展过大量效度研究,对AWE系统的发展起到了积极作用。然而,针对我国自主研发的AWE系统批改网的效度研究却十分有限。本研究从测量性、归纳性和外推性三方面对批改网效度加以验证,结果显示,批改网的人机评分同一分数档内的完全一致性以及完全加相邻分数档一致性与国外同类AWE系统基本相似,人机评分显著相关,说明其具有一定的测量性,但是相关性略低于国外其它AWE系统。批改网对不同任务作文评分呈现显著相关性,显示出一定的归纳性,但相关性略低于人工评分间的相关性以及国外其它AWE系统的人机评分相关性。批改网作文评分与听力、阅读以及学习档案袋分数显著相关,具有一定的外推性,且相关性高于国外其它多数AWE系统。研究也发现,批改网对不同任务作文评分有显著差异,系统评分与口语成绩未呈现显著相关性。研究者对此进行了解释。本研究较为全面地对批改网系统的效度进行了验证,对于系统的开发、利用和改进有着积极意义。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社