《深化新时代教育评价改革总体方案》提出要扭转不科学的教育评价导向,改进结果评价,强化过程评价,探索增值评价,健全综合评价。增值评价作为一种发展性评价理念,突破对单一学业成绩的评价,更加注重过程和进步程度,让学生专注和看见自己的成长,让学生、教师和学校的努力被看见,该理念正逐步从学术研究走向区域实践。
一、内涵:从“择优”到“促成长”
增值评价是一种用来测量教师/学校对学生学业成绩增长的模型。它采用统计技术将影响学生发展的教师/学校影响与其他因素的影响进行分离(如性别、学生初始能力、父母职业等),关注学校的“净产出”,聚焦于学生在学业成绩上在某一段时间的增幅。传统评价如同“摘果子比赛”,只看谁摘的果子又多又好(即最终成绩或升学率),却忽略了果树最初的基础和生长环境。下图有助于更加直观地了解什么是增值评价。


(来源:B站北京师范大学刘红云教授“增值评价的区域探索与实践创新”讲座)
增值评价内涵包含了三个关键特征:
·追踪性:必须基于纵向数据(如不同学期、不同年级、不同学段),观察同一批学生随时间的变化;
·控制性:通过统计方法剥离非教师与学校因素的影响,聚焦教育本身的“净效益”;
·成长性:评价的是教育过程带来的“增量”,比较“努力程度”和“进步幅度”,从静态的“产出”转向动态的“成长”。
增值评价的核心在于推动教育评价从“选拔适合教育的学生”转向“创造适合学生的教育”。正如北京师范大学李凌艳教授所强调的,增值评价真正的力量在于技术实现背后的教育思想和主张,对教育工作者而言,更应关注如何借助这一思想,重视教育带来的成长增值,而不只着眼于一时表现的绝对水平。
二、方法与实践:
增值评价方法及我国实践探索
1.均值增值模型
一是直接计算学生两次学业成绩均值的差值;二是采用标准分法,将两次成绩做标准化处理,两者差值即为增值。以上两种计算方法虽然简单易行,但模型比较粗糙,未考虑学生起点差异和其他影响因素,公平性有限,然而依然有不少区域和学校在继续使用。
2.等级增值模型
将学生前后两次的学业成绩百分等级先计算出来,其差值即为增值。学业成绩百分等级是指在常模样本中低于这个分数的人数的百分比,反映个体在常模群体中所处的位置。这种增值评价原理简单,使用也方便,但依然无法考虑其他因素的影响。苏州市基于学生的量尺分数计算出学生个人的百分等级,然后再计算增值。
3.线性回归模型
采用线性回归的方式计算,根据学生前一次测试成绩预测后一次测试成绩,将学生第二次的真实成绩与预测成绩进行比较,差值(残差)即为增值。相对比一元线性模型,多元线性回归除了考虑学业成绩,还能够考虑到其他影响因素。该模型需要满足其假设条件,自变量和因变量之间要存在线性关系,模型的残差应满足正态分布等条件。这种方法比简单增值方法科学,原理简单易懂,但只能做一个层面的分析,不能同时兼顾学生和学校两个层面。
温州市在区域教育质量监测中,采用了一元线性回归方程建构了初中学业增值评价模型。珠海市在学业质量分析中,使用适合区域实际情况的二十层回归分析增值评价模型。
4.多层线性模型(HLM)
又叫多水平模型,规避了线性回归模型的很多局限性。这种方法能够处理嵌套数据,即学生嵌套在班级中,班级嵌套在学校中,并会考虑不同层面的因素对增值的影响,从而获得学生层面和学校层面的增值。这种分析方法需要满足变量之间线性关系的假设、数据整体遵循正态分布等条件。该方法相对复杂,但是分析更加全面和深入,能更精准地控制和分离各种影响因素,从而获得“净效应”。
国内区域相关探索还不多,上海市奉贤区教育学院对其区域的初中数学增值评价做了多层线性模型的探索。
5.学生成长百分位法(student growth percentile,SGP)
将同等水平学生(定义为学业伙伴,academic peer)作为比较群体以计算学生的进步,算出每个学生在学业伙伴中相对位置的变化,以此来衡量学生的进步程度,为解决优秀学生绝对增长空间不足的问题提供了新视角(即克服“天花板效应”)。SGP从1到99不等,数字越大代表成长越快。例如,某学生从入学时的第60百分位提升到毕业时的第80百分位,即表明获得了积极增值。可将 SGPs 的均值(MGPs)或中位数作为某一学生群体(班级或者学校)的增值表现。该模型受极端值和异常值影响较小,但使用SGP模型进行计算需要较大样本量,一般要求在5000人以上。
北京市海淀区教师进修学校在学业水平监测项目中,使用了SGP模型。长沙市教育科学研究院在教育质量综合评价中,引入该模型,并从区域拓展到学校、班级和学科层面的应用。深圳市盐田区在其教学质量检测中,探索了简易模型的使用。
6.多元指标综合增值探索
增值评价需要超越学业成绩,将学生的德智体美劳以及其他非认知能力等发展性指标纳入增值评价框架。尽管尚未形成成熟的模型,但这种探索发出了明确信号,教育要促进人的全面发展,评价就应看见成绩之外的成长。
长沙市在这方面进行了有益尝试,他们在部分试点区域或学校,结合综合素质评价平台,记录学生关键行为与表现,尝试用描述性统计、成长档案袋等质性结合定量的方式,评估学生在非学业领域的发展增量。上海市在“绿色指标”评价体系中,也将“学生高层次思维能力指数”“学生学习动力指数”等进步情况作为评价学校的重要参考,体现了类似的综合取向。
三、结果应用:指向主体的改进
增值评价应服务于科学决策与改进,而非简单排名。从学生层面看,结合学业成绩与进步情况,可将其划分为四个类别(如左下图所示),通过精准分析各类学生的特点与问题,实施有针对性的干预,尤其需关注“成绩低、进步慢”的学生群体,加强支持与指导。在学校层面,同样可依据成绩与增值情况划分为四个类别,结合区域增值数据(如右下图所示),识别高效能与低效能学校,并整合其他评价信息,深入归因、制定改进策略,推动整体教育质量提升。


(来源:B站北京师范大学刘红云教授“增值评价的区域探索与实践创新”讲座)
四、冷静前行:实施增值评价的风险规避
在拥抱增值评价的同时,我们必须保持清醒认识其科学边界与实践局限,确保这一评价方式真正发挥促进发展的作用,避免陷入新的误区。
第一,防止“新瓶装旧酒”,陷入另一种排名焦虑。增值评价的本质是发展性评价,根本目的应是促进师生共同成长,实践中需警惕将其简单异化为新的排名或奖惩工具,可能引发功利化倾向,违背了评价改革的初衷。因此,理解增值评价背后的思想和实现观念的转变是首要且重要一环。
第二,正视模型局限,科学审慎解读。增值评价模型有其特定的统计假设,最早用于经济和农业领域,这些领域可以符合模型的假设。但是教育更为复杂,诸多因素影响模型的假设,违反统计假设可能导致结果不够精准。因此,增值评价结果受数据质量、模型选择、变量控制等多重因素影响。因此,必须避免对评价结果的绝对化、简单化解读。在保证测验工具的质量和数据真实可靠性的基础上,必须谨慎解读数据,要结合实地调研、师生访谈等进行综合研判,理解数据背后的教育故事,避免“唯数据论”,进行综合与审慎的研判。
第三,推动多元融合,构建综合评价体系。目前对学生的增值评价内容还是以测试分数为主,使教师和学校在追求高增值的过程中更加关注应试,进而加剧“唯分数”的导向,这是增值评价应用于学生评价的一个误区。增值评价的初衷在于破除“唯分数”的不良导向,也需要关注学生综合素质和非认知等能力发展的增值。同时,重视增值评价与其他评价方式的融合,实现证据的互补性。
第四,优化增值评价,使其具有情境适应性。增值评价的模型有其独特的统计假设要求,需要根据样本量大小、评价指标异同(成绩、情感态度)、评价对象(办学质量、教师、学生)、评价区域性特点,选择和优化增值评价模型,使其更具有情境适应性,并破解天花板和地板效应,而不是直接照搬。
参考文献
1.刘红云.增值评价的区域探索与实践创新1.[EB/OL].(2023-02-12)[2026-01-16].https://www.bilibili.com/video/BV1x54y1g7JV/?spm_id_from=333.337.search-card.all.click&vd_source=38540095d54dd290c2c2dd62dff774e4.
2.高椿雷.教育增值评价的理论与应用[M].北京:中国社会科学出版社,2025.
3.任玉丹.有效还是有偏:美国教师增值评价引发的质疑及对我国探索增值评价的启示[J].中国考试,2022,(04):34-43.
4.王帅鸣,姚守梅,王梦,等.基于成长百分等级模型开展增值评价的实证研究[J].中国考试,2020,(09):46-51.
5.辛涛,周园.增值评价改革的现状、问题与未来进路[J].中小学管理,2025,(10):9-14.
6.陈安琪,关丹丹.几种增值评价方法的对比分析及实证研究[J].中国考试,2022,(09):54-62.
撰稿:张志红
一审:倪唯蓉
二审:罗强、巩辉
三审:洪世林
