独家 | 张敏强：对不同的人做出不同的评价——基础教育质量评价方法 +关注 +发表新主题

独家 | 张敏强：对不同的人做出不同的评价——基础教育质量评价方法

发表于讨论求助 2023-05-10 14:56:27

张敏强

中国教育学会教育统计与测量分会理事长

微信编辑器构思编辑器

　　我国是考试大国，是历史最悠久的国家，创造了考试的历史——科举。但是真正把测量作为一门学科，则始创于西方。我国传统的测量与评价方法——真分数理论模型，基于真分数理论的方法、技术，我们称之为经典测验方法、技术。

　　随着测量理论技术的发展，有很多新技术、新方法可以解决我们目前遇到的难题。有些难题需要政策制订层面解决，但有些可以利用技术解决。

　　考试有两种类型，即常模参照和标准参照。这两种类型有不同的分数报告模式，如排队、排位、达到预定目标等，经过百年发展，得到了比较广泛的认可，但它也存在一些问题。

　　第一，“一张试卷”评判结果的合理性和准确性。我们习惯用一张试卷来评判结果，但不同的命题人员选择考察内容的角度肯定不同，因此，一张试卷不可能覆盖全部所想考察的内容。

　　第二，我们经常讲因材施教，但学生的长处和短处在哪里，我们不知道。可不可以做到因人而测？当学生考试没考好时，家长可能会认为“是我的孩子学不好”，但他也会追究老师的责任“为什么我孩子会的你不考，不会的倒考了一大堆，说明是你们出题有偏差。”

　　第三，经典测量理论以前是评价团体，现在更重视评价个人。我们只知道什么是排位、达标还不够，还需要知道为什么、好在哪里、不足在哪、有什么方法可以补救等。

　　人们对经典测验的批评，孕育了现代测验理论，即希望能够对不同的人做出不同的评价。

　　到目前为止，现代测量方法有以下几种情形：

　　一种是项目反应理论。项目反应理论以潜在特质为理论基础，使用Logistic等模型，以人的能力值表达为掌握程度。特别是IRT—CAT的实现，做到了因人而“测”、因人施“测”。

　　一个人考试，经常会遇到这样一种情况：出的试题不是我最擅长的，而我最擅长的方面却没有考到。那么，考试结果是不是可以不用分数表达，而用能力来表达？完成不同的题目是不是可以得到不同的分数？

　　另一种是认知诊断测验理论。认知诊断理论就是想做到每一个学生对应一个相应的评价。

　　如:有两位学生，数学同样考了60分，一个是几何50分，代数10分；另外一个恰好相反。

　　针对这种情况，我们就可以利用认知诊断理论先诊断出这位学生几何考不好的原因，即到底是天生的空间想象能力问题，还是教学方法或学习方法问题，然后再给出相应的诊断报告。认知诊断理论把认知过程与测量手段结合起来，不仅能对考生的整体水平做出评估，同时还可以将考生的认知结构模式化，然后利用合适的测量模型对不同的认知结构模式进行诊断，从而定量地考察考生的认知结构和个体差异。

　　经典测量理论（Classical Test Theory，CTT）、项目反应理论（Item Response Theory，IRT）、认知诊断理论（Cognitive Diagnosis Theory，CD）的比较、分析。

　　（一）理论技术层面的比较

　　·经典测量理论（CTT）的理论基础是真分数理论，测评目标是测验得分。

　　·项目反应理论（IRT）的理论基础是潜在特质理论，其测评目标是测出被试的潜在特质（即能力）。

　　·认知诊断理论的理论基础是认知心理学与心理测量学的结合，是为了测出被试的认知属性结构。

　　现在的心理学研究认为，人的各方面能力是天生带来的，有些人的语言能力缺失，有些人的数学能力缺失，因此不能完全用分数来测量。

　　在测量模型方面：

　　·CTT主要是针对真分数模型；

　　·IRT在现今已有很多的模型，也得到了大量应用；

　　·认知诊断主要有规则空间模型、属性代码模型、融合模型等，因为它还比较新，因此各种模型的应用都还在探索之中。

　　在核心技术指标方面：

　　·CTT就是区分度、难度、信效度；

　　·IRT是项目特征曲线，就是你的能力有多高，就可以不断地累积，当然也可以不是累积模型，可以另做其他模型；

　　·认知诊断，通俗地说，就是这个班级里的学生按照不同类别可以分成三、四个学生群，这些学生的能力和认知差不多，教学就有针对性。分类对于老师来说，作用非常大，所以我经常在广州跟学校老师说，你想当优秀的教师其实是特别容易的，只要你把每一个学生都进行属性分类，那他的测评报告结果就不仅仅是60分。

　　（二）应用层面的比较

　　目前，国内基本上都在用经典测量理论的方法，项目反应测量法的应用也有所涉及。我国的大学英语四六级应用的就是项目反应理论的方法。

　　应用认知诊断理论是我最早在研究的一种测量方法，国内还没有人应用。这种测量方法需先建题库，再在题库里建立在线测试，然后进行数据分析。

　　经典测量理论的测验成本是平均成本，命题的成本不会很高，但在实测过程中的成本非常高，特别是大规模的。而认知诊断的前期建设成本很高，但是后面只要更新题库就可以。

　　经典测验对计算机技术的要求一般，测验编制及实施的技术要求也较低，前期比较容易，但是对组织的要求较高。因此，经典测验有较广泛的应用前景。

　　项目反应理论和认知诊断对计算机技术的要求都比较高。在编制及实施方面，项目反应理论可以用纸笔测验，也可以用计算机测试。认知诊断则完全是在线上完成测试，数据收集难度比较大，但我认为，随着社会和科技的发展，认知诊断可以引发测量评价的革命，可以真正做到“因人而测”“因人而试”，给出“因人而教”的真正方案。

（三）总体评价与应用建议

【总体评价】

经典测量理论

　　优势：

　　①便于理解、操作；

　　②测验成本低；

　　③团体共用一份试卷，针对团体作出评价。

　　缺陷和不足：

　　①被试的能力水平与测验相关；

　　②试题（卷）的特征指标与样本相关；

　　③测量结果笼统、不精确；

　　④真分数与观察分数线性的关系假定得不合理；

　　⑤参数指标间匹配性较差，被试能力与项目难度不在同一量尺上；

　　⑥测验结果的准确性与推广性相矛盾。

项目反应理论

　　优势：

　　①克服了经典测量理论的“测验相关”“样本相关”等不足；

　　②对被试能力的测量比经典测量理论更为精确；

　　③以IRT为基础发展的CAT测验克服了经典测量中所有被试完成同一份测验的弊端，实现了“因材施测”的目标；

　　④可以做到“因人而测”。

　　缺陷与不足：

　　①被试能力的定义还是通过单一的能力值，未能进一步考查被试的认知结构；

　　②测验理论较为复杂，需要由具备专业统计测量学知识的专家进行操作；

　　③测验成本较高；

　　④参数值为服从特定分布的实数，不易于解释。

认知诊断理论

　　优势：

　　①继承了项目反应理论的优良性质；

　　②能够精确地测量、诊断被试的认知属性结构，极大提高了测验的功效；

　　③能够对被试进行更详细的分类，特别适宜不作排队，不影响日常教学的测试；

　　④CD为基础发展出CD-CAT测验，比普通CAT测验更为优越；

　　⑤能够为提升或补救教学提供确切的依据，不仅能提高测验质量，还能提高教学质量；

　　⑥不但可以“因人而测”，还可以对不同的人给出不同的评价结果，做到可以不用“统考”也可以分析、收集数据，给出质量的评价。

　　缺陷与不足：

　　①测验理论较为复杂，尤其是命题要求很高，需要由统计测量专家与认知心理学专家、学科专家通力合作进行；

　　②对认知属性的划分较为困难，需要根据所测认知领域的特点结合专门技术进行；

　　③初始测验成本较高。

【应用建议】

　　经典测验理论可涵盖使用，普及知识，成为每个教师除教育学、心理学、教学法以外的基本技能。

　　项目反应理论可以使用于会考、能力水平考试，从而降低大规模考试的各种压力。

　　认知诊断理论也可以用于会考及能力水平考试，它的特别诊断功能，可以使“因材施教”个性化教学得以实现。

　　我们在质量监测、高考改革过程中，有很多问题是可以通过技术来解决的。当政策与技术融为一体，将为高考改革添一把更有用的利器，也让我们的研究结论更加可靠、准确。

（以上内容根据张敏强在中国教育学会2015年度教育评价研讨会上的发言整理）

中国教育学会2016年度教育评价研讨会即将召开，在今年的研讨会上，张敏强先生还会带来哪些实践思考和启示，值得期待。研讨会正在报名中，教育评价关乎每一个学生的成长成才，关心中国教育教育发展和改革的你，千万不要错过。

　　教育评价研讨会是中国教育学会品牌学术活动之一，自2013年始已连续举办三届。

　　2016年度教育评价研讨会将于9月26-27日在江苏省扬州市召开，会议主题为“评价与学生核心素养”。

　　会议围绕考试招生制度改革、中小学教育质量综合评价等热点问题，邀请专家学者、校长和教师展开研讨，引起了广大教育工作者的极大关注。

会议报名截止日期9月20日

了解更多

猛戳“阅读原文”

教育使命

∣点滴随行

长按，识别二维码，加关注

发表

签到

26906人签到看排名