作者介绍
杨志明/湖南师范大学测评研究中心主任、外国语学院教授,ETS Assessments(Beijing)顾问,(美国)教育考评局(ERB)原技术总监,香港中文大学博士。
贾立新/北京市顺义区教育质量评价中心主任。
吕龙梅/北京市顺义区教育质量评价中心教研员。
[size=1em]【摘 要】 实施阅读能力增值评价是激发各层次学生和学校的学习积极性、探索青少年阅读能力成长规律、提高阅读质量和效果的有效手段,也是对传统的绝对评价和相对评价的有力补充。文章首先介绍了增值评价的原理和7种常用方法,然后以《中小学生阅读能力测评量表》为例,具体展示了基于IRT的测验等值、估计成长分数等增值评价步骤,为做好评价工作提供了新的思路和方法。
[size=1em]【关键词】 阅读能力;增值评价;IRT测验等值;成长分数
阅读是人们获取信息、认识世界、发展思维能力、形成良好情趣品味和提升文化素养的重要手段。其重要性不仅得到了大众的广泛认同,而且受到了各国政府部门的高度重视。比如,我国《语文课程标准》明确要求“培养学生广泛的阅读兴趣,扩大阅读面,增加阅读量,提倡少做题,多读书,好读书,读好书,读整本的书”,并具体规定“小学一至六年级阶段的课外阅读总量不少于150万字”等。不过,人们在关于“读什么书”“如何读书”和“如何评价”等方面,常常出现“挂一漏万”或“错过时机”或“评价不当”等问题。比如,大家对阅读理解比较重视,但在借助阅读提升思维能力、情趣品味和文化素养等方面却重视不够;对绝对评价(掌握分数,mastery score,MS)和相对评价(班级/年级/学校排名等)关注较多,对增值评价(成长分数,growth score,GS)却关注较少[1]。这显然不利于阅读者对自我发展进度的把握,不利于管理者对阅读工作的全面评价,尤其对于一些基础比较薄弱的阅读者、班级和学校,只看掌握分数或班级/年级/学校排名,而不看成长分数的评价不仅不公平,而且会打击阅读者的阅读兴趣和积极性等。什么是增值评价?增值评价应该如何实施?本文以阅读能力测评为例,在题目反应理论(item response theory,IRT)的框架下,运用测验等值方法,具体讨论增值评价的原理和方法,以期为评价者恰当使用增值评价技术提供参考。
一、增值评价概述增值评价(value-added models)指的是对学习者(个体或班级或学校或区域)在一定时间内知识获得增量或能力提升幅度等方面的评价。其基本思路是“用多个时间点观察的结果补充一次性终结性评价的不足”“用成长性评价补充绝对评价和相对评价的不足”。实施这种增值评价的关键在于,评价者可以收集到被评者在一定时期内多次测评的信息,这些测评是公平(fairness)、可信(reliable)和有效(valid)的,且测评指标的观测值具有可比性。[2]增值评价的主要价值在于鼓励各种层次的学习者追求进步,让基础比较薄弱的个体或群体也能看到自身的成长(growth),看到前途。这对于激发那些“考好大学无望”或“被放弃”群体的学习积极性具有十分重要的意义。
事实上,增值评价是当今教育评价发展的一个新趋势。比如,在美国,与布什政府过去推行的《一个不能少》(No Child LeftBehind,NCLB)法案强调“所有学生都应该达标”的绝对评价模式不同,奥巴马政府的《个个都成功法案》(Every Student Succeeds Act,ESSA),已经把增值评价模式确立为美国今后教育评价工作的重点。ESSA要求各州“通过对学生成绩进步进行评价,对教师、学校和学区进行评价和问责”[3]。与国际发展趋势类似,我国近几年逐渐开展的“基础教育质量监测”工作、当今高考新方案中试行的“综合素质评价”“一年两考”“多元评价”措施,等等,也为搞好我国的增值评价工作提供了可能。
从教育测量学角度来说,增值评价的主要方法有7种[3][4][5]。即基于等值纵向量表的“增分(gain score)模式”“渐近达标(trajectory)模式”和“分类(categorical)模式”、基于预测模型的“残差增量(residual gain)模式”“学生成长百分位等级(student growth percentile,SGP)模式”“投射(projection)或预测(prediction)或回归(regression)模式”,以及以多层级线性和非线性回归模型(hierarchical linear and nonlinear modeling,HLM)为代表的其他增值模型。
增分模式是一种“用后测分数减去前测分数”的方法,分数之差为正表示学生“进步了”,否则表示“没有进步或退步了”(分数之差的范围需要结合测量信度和误差进行解读)。
渐近达标模式是根据最初若干次(比如最初3年)测评数据的“增分量”变化趋势预测未来“增分量”是否达到期望值的方法,达到或超过期望值表示学生“进步了”,否则表示“没有进步或退步了”(差值范围需要结合测量信度和误差进行解读)。
分类模式是考察学生历次测评的等级变化和变化者比例的方法,常用的等级包括“未达标(under basic level)”“基本达标(meet basic level)”“良好水平(proficiency level)”和“优秀水平(advanced level)”4个等级,或者“未达标”“达标”和“优良”3个等级。学生“由较低等级跨入较高等级”表示他“进步了”,否则表示“没有进步或退步了”。
残差增量模型指的是“考察实测分数与预测分数之差”的方法,差值为正表示学生成长较好,差值为0表示没有增长,差值为负数表示退步(差值需要与测评信度或测量误差综合使用)。
学生成长百分位等级法假定“与考生在头一年或前一次测评中得分相同或接近的群体(简称参照样本),在次年或随后的测评中所得分数会呈正态分布”,评价者只要计算出该考生的新成绩在参照群体中的百分位等级,就可以对其是否“进步”做出评价。百分位等级大于50,表明该考生“进步了”,否则表明他“没有进步或退步了”。
关于“投射/回归/预测”和HLM方法,由于涉及较多统计学知识,需要另外行文。
值得注意的是,除了所有增值评价方法都需要满足的多次测评、内容一致、测评可信、测评有效和测评公正等前提条件,基于纵向量表的3种方法还必须满足测验等值的要求,因为未经等值处理的分数增量很可能是测评试卷的难易不同所致。当然,学生成长百分位等级法并不需要测验等值,因为该方法仅仅需要确定个体在参照样本中的相对地位,这种相对地位分数可以直接根据未经等值的原始分数进行估计。
特别值得注意的是,等值过的分数增量有时也可能没有意义,因为内容不同的测评成绩,比如,物理中的力学成绩与光学成绩,并不可以直接进行比较。当然,一些跨知识点的内容,如阅读能力、思维能力等,经过等值处理的前后测分数是可以进行直接比较的,即可以进行增值评价。
二、《中小学生阅读能力测评量表》的结构为了帮助相关管理者看到学生的阅读进步情况,除了考察学生所读书目的数量和难度、阅读的氛围和态度等,我们专门研发了一套《中小学生阅读能力测评量表》,重点考查3~8年级学生的分析性思维和审辩性思维能力。
由于增值评价要求“所测内容一致”,阅读能力量表先定义了阅读能力的测评维度,包括阅读理解(LJ)、逻辑推理(TL)、事实判断(PD)、假设辨认(BR)和论证评价(PJ)5个方面。
1.阅读理解:指的是领会并解释文字材料的能力,涉及信息理解、应用、分析、综合和概括等能力,包括“细节查找”“细节推理”“人物分析”“核心内容”“重点人物”“词句理解”“段落作用”“情节推理”“原因分析”“道理启示”等方面。
2.逻辑推理:包括运用类比与联想、归纳与演绎、分析与综合等思维方式,以及提取和加工信息的能力。比如,找出人物、观点、事件、方式方法等的相同点和不同点。
3.事实判断:即区分事实与观点、选取事实支持或反驳观点的能力。具体表现就是学生在阅读过程中,能够选择最有力的、关联度最高的事实来表达自己的观点,会搜集有力证据反驳他人的观点,会辨别历史事件的真实性与可能性等。
4.假设辨认:指的是在论证评价过程中,辨别明确的或暗含的前提条件的合理性或正确性的能力,即学生对任何事情在做判断和讨论前是否能够对事件本身的前提假设进行判断。具体表现为在对事件进行判断和讨论时,理解前提条件在事件中的重要程度。这种题型的考查,有利于学生提出自己的猜想和假设,发现假设与事实、论证、事件的关系。
5.论证评价:指的是独立思考和质疑论点、论据、论证过程的准确性、充分性、必要性及恰当性等能力。具体表现为:具有一定的独立思考精神和怀疑精神,通过自己对于事件的分析理解做出解读和判断;认为事件不具有唯一的正确答案,坚持价值的多元化,既不执迷于自己的经验,也不轻易相信他人的答案,以多元化、开放的态度去进行论证评价;能够发现并指出观点或论证过程中的疏漏和优势;能够对论证过程进行有效的分析,并提出较恰当的评价和观点以完善或反驳论证过程。这种题型的考查,有利于学生独立思考精神和怀疑精神的培养,有利于学生较为流畅地对包含观点和论证过程在内的材料进行反思、质疑和论证,并做出客观的评判。
由于小学3~4年级的学生对“假设辨认”的掌握程度不高,所以在针对3~4年级学生的测评试卷中仅仅设计了“阅读理解”“事实判断”“逻辑推理”和“论证评价”4个维度的题目。
三、测验等值与成长分数的估计为了实施增值评价,多次测评的分数以及跨年级之间的分数必须满足测验等值的前提条件,只有等值分数才可以被转换为成长分数,整个工作流程包括以下3个步骤。
步骤一:设计等值方案
等值设计的常用方案包括“等组设计或共同被试设计”和“共同题目或锚题设计”两大类别。由于本次测试属于低利害(low-stake)研究性项目,我们采用了共同题等值设计。其中,3~4年级量表(卷1)包含40道试题,5~6年级量表(卷2)包含42道试题,7~8年级量表(卷3)包含45道试题,卷1与卷2之间包含6道共同题,卷2与卷3之间包含11道共同题,所有题目均为0/1计分的4选1客观性试题。
步骤二:等值参数估计
本研究的有效样本量为3331人(来自4所小学和2所初中),对题目和考生的参数估计我们采用了Rasch模型。为了实现“同时校准(concurrent calibration)”参数估计,这6个年级、3套试卷的作答反应数据首先被合并整理成一个文件,然后通过运行Rasch模型的参数估计软件WINSTEPS,得到了所有题目的等值参数估计值(b)(控制文件见附录1)。经过模型与数据拟合良好性检验,我们没有发现拟合性指标IN_MSQ或OUT_MSQ超出[0.5,1.5]的题目,表明参数估计的质量不错。不过,有部分题目由于太难(通过率p_value在0.2以下)导致了区分度不高(Pb值太低)(见附录2),这个现象从图1也可以得到验证。

图1 3~8年级阅读能力测试考生与题目参数的对应关系
由图1可知,经过量表化(scaling)处理的3~8年级考生的阅读能力参数估计值主要落在[-3,+2](图1左边部分),题目难度参数的估计值范围则分布得更广,主要落在[-3,+3]。这说明,阅读能力量表对本次考生群体有着很好的区分度和较高的“天花板(ceiling)”效应,或者意味着这个考生样本中“高手不多”,这对于设计成长分数量表大有好处,因为每个学生都有足够高的分数升值空间来记录学生的阅读能力提升情况。
rg /measuring -growth/.