独家 | 张敏强:对不同的人做出不同的评价——基础教育质量评价方法

发表于 讨论求助 2023-05-10 14:56:27

张敏强

中国教育学会教育统计与测量分会理事长

微信编辑器 构思编辑器




  我国是考试大国,是历史最悠久的国家,创造了考试的历史——科举。但是真正把测量作为一门学科,则始创于西方。我国传统的测量与评价方法——真分数理论模型,基于真分数理论的方法、技术,我们称之为经典测验方法、技术。


  随着测量理论技术的发展,有很多新技术、新方法可以解决我们目前遇到的难题。有些难题需要政策制订层面解决,但有些可以利用技术解决。


  考试有两种类型,即常模参照和标准参照。这两种类型有不同的分数报告模式,如排队、排位、达到预定目标等,经过百年发展,得到了比较广泛的认可,但它也存在一些问题。


  第一,“一张试卷”评判结果的合理性和准确性。我们习惯用一张试卷来评判结果,但不同的命题人员选择考察内容的角度肯定不同,因此,一张试卷不可能覆盖全部所想考察的内容。


  第二,我们经常讲因材施教,但学生的长处和短处在哪里,我们不知道。可不可以做到因人而测?当学生考试没考好时,家长可能会认为“是我的孩子学不好”,但他也会追究老师的责任“为什么我孩子会的你不考,不会的倒考了一大堆,说明是你们出题有偏差。”


  第三,经典测量理论以前是评价团体,现在更重视评价个人。我们只知道什么是排位、达标还不够,还需要知道为什么、好在哪里、不足在哪、有什么方法可以补救等。


  人们对经典测验的批评,孕育了现代测验理论,即希望能够对不同的人做出不同的评价。


  到目前为止,现代测量方法有以下几种情形:


  一种是项目反应理论。项目反应理论以潜在特质为理论基础,使用Logistic等模型,以人的能力值表达为掌握程度。特别是IRT—CAT的实现,做到了因人而“测”、因人施“测”。


  一个人考试,经常会遇到这样一种情况:出的试题不是我最擅长的,而我最擅长的方面却没有考到。那么,考试结果是不是可以不用分数表达,而用能力来表达?完成不同的题目是不是可以得到不同的分数?


  另一种是认知诊断测验理论。认知诊断理论就是想做到每一个学生对应一个相应的评价。


  如:有两位学生,数学同样考了60分,一个是几何50分,代数10分;另外一个恰好相反。


  针对这种情况,我们就可以利用认知诊断理论先诊断出这位学生几何考不好的原因,即到底是天生的空间想象能力问题,还是教学方法或学习方法问题,然后再给出相应的诊断报告。认知诊断理论把认知过程与测量手段结合起来,不仅能对考生的整体水平做出评估,同时还可以将考生的认知结构模式化,然后利用合适的测量模型对不同的认知结构模式进行诊断,从而定量地考察考生的认知结构和个体差异。


  经典测量理论(Classical Test Theory,CTT)、项目反应理论(Item Response Theory,IRT)、认知诊断理论(Cognitive Diagnosis Theory,CD)的比较、分析。


  (一)理论技术层面的比较


  ·经典测量理论(CTT)的理论基础是真分数理论,测评目标是测验得分。

  ·项目反应理论(IRT)的理论基础是潜在特质理论,其测评目标是测出被试的潜在特质(即能力)。

  ·认知诊断理论的理论基础是认知心理学与心理测量学的结合,是为了测出被试的认知属性结构。


  现在的心理学研究认为,人的各方面能力是天生带来的,有些人的语言能力缺失,有些人的数学能力缺失,因此不能完全用分数来测量。


  在测量模型方面:

  ·CTT主要是针对真分数模型;

  ·IRT在现今已有很多的模型,也得到了大量应用;

  ·认知诊断主要有规则空间模型、属性代码模型、融合模型等,因为它还比较新,因此各种模型的应用都还在探索之中。


  在核心技术指标方面:

  ·CTT就是区分度、难度、信效度;

  ·IRT是项目特征曲线,就是你的能力有多高,就可以不断地累积,当然也可以不是累积模型,可以另做其他模型;

  ·认知诊断,通俗地说,就是这个班级里的学生按照不同类别可以分成三、四个学生群,这些学生的能力和认知差不多,教学就有针对性。分类对于老师来说,作用非常大,所以我经常在广州跟学校老师说,你想当优秀的教师其实是特别容易的,只要你把每一个学生都进行属性分类,那他的测评报告结果就不仅仅是60分。


  (二)应用层面的比较  


  目前,国内基本上都在用经典测量理论的方法,项目反应测量法的应用也有所涉及。我国的大学英语四六级应用的就是项目反应理论的方法。


  应用认知诊断理论是我最早在研究的一种测量方法,国内还没有人应用。这种测量方法需先建题库,再在题库里建立在线测试,然后进行数据分析。


  经典测量理论的测验成本是平均成本,命题的成本不会很高,但在实测过程中的成本非常高,特别是大规模的。而认知诊断的前期建设成本很高,但是后面只要更新题库就可以。


  经典测验对计算机技术的要求一般,测验编制及实施的技术要求也较低,前期比较容易,但是对组织的要求较高。因此,经典测验有较广泛的应用前景。

 

  项目反应理论和认知诊断对计算机技术的要求都比较高。在编制及实施方面,项目反应理论可以用纸笔测验,也可以用计算机测试。认知诊断则完全是在线上完成测试,数据收集难度比较大,但我认为,随着社会和科技的发展,认知诊断可以引发测量评价的革命,可以真正做到“因人而测”“因人而试”,给出“因人而教”的真正方案。


(三)总体评价与应用建议


【总体评价】


经典测量理论


  优势:

  ①便于理解、操作;

  ②测验成本低;

  ③团体共用一份试卷,针对团体作出评价。


  缺陷和不足:

  ①被试的能力水平与测验相关;

  ②试题(卷)的特征指标与样本相关;

  ③测量结果笼统、不精确;

  ④真分数与观察分数线性的关系假定得不合理;

  ⑤参数指标间匹配性较差,被试能力与项目难度不在同一量尺上;

  ⑥测验结果的准确性与推广性相矛盾。


项目反应理论


  优势:

  ①克服了经典测量理论的“测验相关”“样本相关”等不足;

  ②对被试能力的测量比经典测量理论更为精确;

  ③以IRT为基础发展的CAT测验克服了经典测量中所有被试完成同一份测验的弊端,实现了“因材施测”的目标;

  ④可以做到“因人而测”。


  缺陷与不足:

  ①被试能力的定义还是通过单一的能力值,未能进一步考查被试的认知结构;

  ②测验理论较为复杂,需要由具备专业统计测量学知识的专家进行操作;

  ③测验成本较高;

  ④参数值为服从特定分布的实数,不易于解释。


认知诊断理论


  优势:

  ①继承了项目反应理论的优良性质;

  ②能够精确地测量、诊断被试的认知属性结构,极大提高了测验的功效;

  ③能够对被试进行更详细的分类,特别适宜不作排队,不影响日常教学的测试;

  ④CD为基础发展出CD-CAT测验,比普通CAT测验更为优越;

  ⑤能够为提升或补救教学提供确切的依据,不仅能提高测验质量,还能提高教学质量;

  ⑥不但可以“因人而测”,还可以对不同的人给出不同的评价结果,做到可以不用“统考”也可以分析、收集数据,给出质量的评价。


  缺陷与不足:

  ①测验理论较为复杂,尤其是命题要求很高,需要由统计测量专家与认知心理学专家、学科专家通力合作进行;

  ②对认知属性的划分较为困难,需要根据所测认知领域的特点结合专门技术进行;

  ③初始测验成本较高。


【应用建议】


  经典测验理论可涵盖使用,普及知识,成为每个教师除教育学、心理学、教学法以外的基本技能。


  项目反应理论可以使用于会考、能力水平考试,从而降低大规模考试的各种压力。


  认知诊断理论也可以用于会考及能力水平考试,它的特别诊断功能,可以使“因材施教”个性化教学得以实现。


  我们在质量监测、高考改革过程中,有很多问题是可以通过技术来解决的。当政策与技术融为一体,将为高考改革添一把更有用的利器,也让我们的研究结论更加可靠、准确。

(以上内容根据张敏强在中国教育学会2015年度教育评价研讨会上的发言整理)


中国教育学会2016年度教育评价研讨会即将召开,在今年的研讨会上,张敏强先生还会带来哪些实践思考和启示,值得期待。研讨会正在报名中,教育评价关乎每一个学生的成长成才,关心中国教育教育发展和改革的你,千万不要错过。




  教育评价研讨会是中国教育学会品牌学术活动之一,自2013年始已连续举办三届。

  2016年度教育评价研讨会将于9月26-27日在江苏省扬州市召开,会议主题为“评价与学生核心素养”。

  会议围绕考试招生制度改革、中小学教育质量综合评价等热点问题,邀请专家学者、校长和教师展开研讨,引起了广大教育工作者的极大关注。





会议报名截止日期9月20日

了解更多

猛戳“阅读原文”


教育使命

点滴随行

长按,识别二维码,加关注


发表
26906人 签到看排名