如何通过一场考试来衡量学生的能力呢?

发布于 2021-11-13 11:24 ,所属分类:数学资料学习库

点击下方gongzhong号,回复资料分享,收获惊喜

前言

本期开始之前,小编想问大家一个问题:对于一场数学考试,分数高的应试者一定比分数低的应试者能力高吗?答案显然是否定的。那如何通过一场测试来衡量一个人在某方面的能力呢?当然是项目反应理论(item response theory, IRT)![1]

IRT 简介

IRT理论引入了试题(item)的难度、区分度、猜测参数等来对应试者的实际能力进行参数估计,并建立相关的概率模型求解。

通俗来说,传统的测试理论表明正确率就是知识点掌握程度,而IRT是通过正确率来推测知识点掌握程度。例如,有两个应试者 A 与 B 考试,假如在没有猜题的情况下,A 和 B 得到了相同的分数,那么传统测验理论就会认为二者能力相同,但事实上, A 比 B 做出的题目要难很多,故在IRT下, A 比 B 的能力要高。

模型简介

项目特征曲线

IRT理论的其它构建都依赖于项目特征曲线 (item characteristic curve, ICC), 该曲线反映了答对题目的概率与应试者能力大小的关系,曲线通常会由于所引用item参数不同而不同。一个itemICC曲线图如fig1所示。

fig1: Item Characteristic Curve

上图所示是一个近乎理想的例子,当值为 0 时,答对题目的概率为 0.5,当值为 -5 时,答对概率几乎为 0,当值为 +5 时,答对概率几乎为 1。

1P model

一参数模型中只引入了难度参数,又称 B 参数或阈值参数,该参数值衡量了一个item的难度。

fig2: 1P model的项目特征曲线

2P model

二参数模型是在一参数模型的基础上,加入了区分度参数,又称 A 参数,该参数衡量了item区分高低能力应试者的程度。

fig3:2P model的项目特征曲线

fig3是二参数模型的项目特征曲线,图中曲线有明显的交叉,实际上,区分度参数影响了ICC的斜率。

3P model

三参数模型是在二参数模型上又加入了猜测参数,又称 C 参数,该参数值告诉我们应试者仅通过猜测答对题目的概率有多大。

fig4:3P model的项目特征曲线

fig4中,大多数ICC在y轴上有较高的起点,数学上称之为截距,这表示应试者在毫不知情的情况下仍有一定的概率答对该题目。

应用过程简介

IRT的一个特点就是利用模型去拟合数据,其中问卷所得的答案数据通常为 binary 或者 ordinal 形式。实际操作过程中,我们应根据所得数据形式和item特点建立合适的模型,设定合理的先验,最后进行参数估计,所得结果可用于评价item本身是否合理、学生个人能力大小的衡量等。随着IRT的发展,可应用于其参数估计的算法和R包越来越多,例如有EM算法、MH-RM算法、mirt包等。

小编有话说

本期所介绍的IRT模型是几个简单的例子,事实上,还有很多根据不同题型所构建的更精确更复杂的模型。SAT, GRE, TOFEL 等考试都是基于项目反应理论所构建的。小编猜想,若以后我国的高考、研究生考试等都推行IRT测验,对个人能力的估计会更加精确、实际选拔可能会更加公平。

参考资料

[1]

项目反应理论:https://www.publichealth.columbia.edu/research/population-health-methods/item-response-theory


相关资源