图形分析法在高考试题评价中的应用研究
发布于 2021-09-11 16:50 ,所属分类:试题库考试资料大全
引用格式:任子朝,赵轩,关丹丹,等.图形分析法在高考试题评价中的应用研究[J].数学教育学报,2021,30(1):37–41.
任子朝,赵 轩,关丹丹,徐奉先
(教育部考试中心,北京 100084)
任子朝(1961—),男,北京人,研究员,主要从事数学教育、教育测量研究.
国家教育考试科研规划2019年度课题——新高考开放性试题研究(GJK2019011)
关键词:高考;试题评价;图形分析;难度;区分度
中图分类号:G632.0 文献标识码:A 文章编号:1004–9894(2021)01–0037–05
1问题提出
2020年初,教育部考试中心发布中国高考评价体系[1],高考的核心功能是立德树人,服务选才,引导教学.立足于服务国家,服务高校选才这一基本点,高考要为国家和高校选拔出符合要求的新生,高考要进一步探索和完善评价人才的方法,保证适宜的考试区分度[2].《国务院办公厅关于新时代推进普通高中育人方式改革的指导意见》指出,科学设置试题难度,命题要符合相应学业质量标准,体现不同考试功能.建立命题评估制度,提高命题质量[3].试题的难度和区分度、试卷的难度和区分功能是衡量试题、试卷质量的重要指标,这些指标都是通过数值进行衡量,依据统计数据进行量化评价[4–6].但如何向公众展示试题的评价结论,如何给命题人员解释数据分析结果,帮助公众和命题人员更直观地理解试题的难度、区分度等指标及其意义,是值得深入探讨的问题.进一步分析,经常会有这样的情况,两个试题具有相同的难度或区分度,但对不同层次的考生区分功能完全不同.
据此,研究聚焦在两个问题,一是如何直观地展示考试数据分析结果及其意义;二是对统计数据相同的试题,如何展示其对不同层次考生的区分功能.此外,还分析和研究了利用图形分析评价高考试题的方法,通过图形呈现评价结果,将会更加直观有效地展示高考试题对于不同能力水平考生的难度、区分度情况,将更有助于公众和命题专家获得直观形象,更深入理解统计数据的意义,也能更好地将统计数据应用于试题评价和改进考试命题.
研究的基础是试题和试卷的难度.对二分法计分的试题,即只有答对和答错两种可能结果的试题,如数学试卷中的选择题和填空题,试题难度以通过率计算
式中P为试题难度,R为答对该题的考生数,N为考生总数.
对非二分法计分试题,即在零分到满分之间有多种可能的结果,如数学试卷中的解答题,试题难度以下面公式计算
式中P为试题的难度,为考生在该题的平均分,Xmax为该题的满分.
对整卷难度,也利用上面的公式计算,式中P为整卷的难度,为考生在整卷的平均分,Xmax为整卷的满分.
2分数分布直方图
分数分布直方图是将考生的分数按一定的分数段,分段统计各分数段的人数和百分比,然后以总分为横坐标,各分数段的百分比为纵坐标绘制成矩形图形.分数分布直方图全面反映了考生的总体分布情况、分布的峰值和偏度、离散程度、各分数段考生的比例.高考统计中是以15分为一个分数段,图1和图2是2019年全国I卷理科数学和文科数学的分数分布直方图.
图1 2019年全国I卷理科数学分数分布直方图
图2 2019年全国I卷文科数学分数分布直方图
2019年全国I卷理科数学试卷的难度为0.556,文科数学试卷的难度为0.462,即为平均数.中数都为75.通过分数分布直方图可以看出各分数段考生的比例,理科考生呈负偏态分布,峰值较高,众数分数段为[90, 105),高水平考生的比例较高.文科考生呈正态分布,考生的分布比理科考生更为分散,峰值较低,众数分数段为[75, 90),低水平考生的比例较高.两卷比较,理科数学试卷得分率比文科数学试卷更高,比文科试卷容易.分析多年的统计数据,当整卷难度在0.4~0.5时,考生成绩呈正态分布.当整卷难度值大于0.5时,试卷就呈负偏态分布,即显示试卷整体偏易.通过直方图展示考生群体的分布情况,比单纯的平均分、标准差等数值更为详实、真切、生动.
3不同批次考生成绩分布图
因为中国高校分批次录取,为发挥功能选拔,区分不同批次水平的学生,高考试题难度应该有相应的层次,体现出与录取要求相对应的难度差异,从而实现有效区分不同层次学生的目的.因为中国高考是分省录取,没有全国统一的录取分数线,所以,研究选取2019年使用全国Ⅰ卷X省的理科数学考试数据,对每个试题的难度按照一批、二批、高职高专3个类别进行分层统计,以题号为横坐标,分别计算各批次考生在该题目的平均得分率(也即对该批次考生的试题难度),以此作为纵坐标,绘制成图(见图3).
图3 2019年X省不同批次理科数学试题难度分布
界定两个批次之间考生在每个题目得分率小于0.1视为差异不明显,大于等于0.1视为有明显差异.图3中SXZJ是指各批次考生分别在理科数学整卷的得分率.从图3可以看出,除第1和9题,其它各题在3个批次考生得分率都有明显的差异,试题可以分为4类.
第一类,全体考生在该题都没有明显差异.此类试题只有第1和9题,分值比例为6.7%.两题的难度分别为0.968和0.942.这是因为第1题是起始题,其功能不是为了区分和选拔,而是为了稳定考生情绪,使考生形成良好的作答心态,迅速进入答题状态,所以每年试卷的第1题都很容易.而第9题作为在此位置的试题属于偏易的试题,该题考查等差数列的通项公式和前n项和的计算,统计结果显示,考生对该部分知识和方法掌握很好,而试题偏易.
第二类是对全体考生都有良好区分度的试题.这类试题包括第4、6、15、19、23题,此类试题分值比例为21.3%.(因为第22、23题为选做题,考生从两题中选择一题作答,所以两题的分值折半计算,每题分值计为5分)
第三类是对基础水平的考生具有良好区分度的试题.这类试题包括第2、3、5、7、8、11、13、14、17、18、22题.此类试题分值比例为46%.
第四类是对高水平考生具有良好区分度的试题.这类试题包括第10、12、16、20、21题.此类试题分值比例为26%.
根据以上分析,理科数学试卷中单纯区分基础水平考生的试题接近半数,再加上对全体考生都能良好区分的试题,比例接近70%,所以考生打好基础非常重要.图3通过图形直观形象地呈现每道试题针对3个不同批次考生的得分率差异,并且得分率呈现递增的趋势,对各层次考生的区分良好,更便于公众和命题人员理解和研究.
4试题难度分布图
通过图3可以看出试题对不同批次考生的区分情况,但该题具体是对数学总分在哪个分数段的考生进行区分,从图中并不能看出,这就要借助于试题的难度分布图.试题的难度分布图是以考生的数学学科总分为横坐标,以该总分的考生在该题的得分率为纵坐标绘制的曲线图.在上述4类试题中,每类选取一题进行分析.并增加了第14题的图形,以便与第13题进行对比研究.
从图4可以看出,第1题对总分在45分以下的考生有一定的区分度,总分在45分以上的考生都能得满分,所以该题主要区分低水平的考生,对高水平考生的区分不够明显,主要是起到稳定考生情绪的作用.
图4 第1题难度分布
从图5可以看出,第6题的难度分布曲线比较平缓,对各分数段的考生区分良好.
图5 第6题难度分布
从图6可以看出,第13题对总分在85分以下的考生区分良好,总分在85以上的考生在该题都能得满分,所以该题主要区分基础水平的考生.
图6 第13题难度分布
试卷的第13题和14题的难度基本相同,分别是0.774和0.765,但两题却在区分考生的层次上存在差异.从图6可以看出,第13题对总分在20—85分的考试区分良好,而从图7可以看出,第14题的区分效果比较平均,基本对各分数段的考生区分功能相同,这一点也可以从图3得到印证.这说明难度数值相同的试题对不同层次的考生区分功能存在差异,而试题难度分布图可以很好地展示这些差异.
图7 第14题难度分布
从图8可以看出,在第20题,总分在100分以下的考生得分率都在20%以下,对总分在100分以上的高水平考生区分良好.
图8 第20题难度分布
5不同组别考生成绩分布图
为更加深入地分析一个试题对不同层次考生的区分情况和试题质量,对选择题需要了解各干扰选项的迷惑功能,对解答题需要了解各个得分点设置是否合理、对考生的区分是否显著.为此设计了不同组别考生成绩分布图.将考生从低到高平均分为5个组,建立坐标系,横坐标为考生群体从低到高的5组,对选择题,纵坐标是每组考生在每个选项的得分率;对解答题,纵坐标为得到某一分数的考生累积比例,这样可以绘制有多条曲线的折线图.利用折线图,对于选择题,可以分析每个组的考生在每个选项的得分情况以及考生得分的走势.对解答题,可以分析考生在该题每一个分数段的得分情况.因为对于得分率比较高的选择题,该折线图就是接近顶端的曲线,对于填空题就是两条相对应的曲线,图形都比较简单,所以研究只选择上文中的第6题和20题做出图形,同时增加了对第18题的图形分析.
5.1 选择题
根据条件概率估计,对于0/1计分题目,如对选择题进行选项分析,可直观看出不同能力水平的考生对各个选项选择的情况及变化趋势.对于单选题,该题有几个选项就有几条折线;对于多选题而言,则有几种选项组合就有几条折线.理想的模式是,正确选项的选择率随着考生水平的提高呈单调递增趋势,即曲线呈上升趋势;干扰选项的选择率则呈单调递减趋势,即曲线呈下降趋势[7].
图9中标*号的是正确选项,P代表未答考生.从图9可以看出,随着考生水平的提高,选择正确选项的人数比例逐渐提高,第1组考生答对的概率在0.2左右,而第5组考生答对的概率达到0.9以上.同时,随着考生水平的提高,选择错误选项的考生概率逐步下降,在最高水平的第5组,选择错误选项的概率在0.1以下.在各干扰选项中,B选项的曲线下降较快,区分功能最为显著.
图9 第6题选项分布
5.2 解答题
对于多级计分的解答题,可观察随着考生能力水平的递增,考生在每一得分点的得分情况和变化趋势.该题有几个得分点就有几条折线.在分数点过多时,可以进行简化,选择几个关键的得分点绘制分数折线.理想的状态是,所有可能的得分点的累积百分比折线都是随着考生水平的提高呈单调递增趋势,不同得分点的累积百分比折线之间疏密程度比较均衡,特别是没有交叉的情况.
第19题满分12分,为使图形更加清晰,以2分为一个步长单位,图10中标示了6条曲线.最上面的2分线为随着考生能力水平的递增得分等于和超过2分的累积比例变化趋势,最下面的12分线为随着考生能力水平的递增得分等于12分的比例变化趋势.从图10各得分线的斜率可以看出,2分线对于中低段的考生区分较好,4分线和6分线对于所有的考生都有较好的区分度,8分线对中高水平的考生有较好的区分度,10分和12分线对高分段特别是拔尖的考生具有很好的区分度.不同得分线之间间距比较大,说明该题不同得分点的分值设计是合理的,能够很好地将不同思维层次的考生区分开来.
图10 第19题成绩分布
第20题满分12分,从图11可以看出,2分线对所有考生都有良好的区分,4分线、6分线、8分线仅能区分高分段考生,而10分线和12分线的区分效果不很明显,因此需要对考生的层次进行进一步地加细分类,考察这样的难题对高水平考生的区分效果.
图11 第20题成绩分布
从以上分析可以看出,不同组别考生成绩分布图与试题难度分布图是有关联的,特别是对选择题,关联性更强.而对解答题,不同组别考生成绩分布图则更为精细,反映的信息更多、更为详细、也更加全面.
6不同年份试题难度对比图
这里对压轴题等难题的区分效果进行了重点研究,在前面分批次的基础上,将高水平考生的层次进一步加细.中国正在进行重点高校建设,在高考录取时也是分批次的,清华北大是提前批次,其次是985高校、一批、二批、高职高专.以此为基础,以X省为例,将考生划分为群体1到群体5这5个类别进行分析.同时进行了年度间的比较,选取2017—2019年的高考数据,对高考理科数学压轴题分批次、跨年度的试题难度变化及层次差别进行更深入的分析研究.
对于清华北大、985高校这样的高水平大学,高考试题要想达到有效选拔高水平学生的目的,必须设置个别难度较大的题目,俗称“压轴题”.压轴题的试题难度设置是否符合命题人员的预期,对高水平学生的难度梯度和区分情况如何,是重点的问题.
在老高考中,因为数学试卷中设置了两个选做题,考生从中选择一题作答,而且为便于考生选择,这两个试题放置在试卷的最后.虽然两题的位置在最后,但其难度并不是最难的,而是属于中档水平.因此第20、21题才是名副其实的“压轴题”.下面是第20、21题的统计图,其中全体考生是指全体考生在该题的得分率.从图12、图13可以得到如下的结论.
图12 2017—2019年X省高考理科数学第20题不同批次难度分布
图13 2017—2019年X省高考理科数学第21题不同批次难度分布
6.1 试题区分作用分析
2017、2018、2019年,第20、21题作为两个压轴题对不同批次的考生都有非常好的区分,所有批次之间考生得分率的差异都大于0.1;一批和二批之间的得分率差值大于0.2;2018年在试卷整体偏易的情况下,一批和二批考生得分率差值大于0.3,2019年清北和985两批考生在20和21题上得分率差值都达到了0.3以上,达到了区分高水平考生的目的.
6.2 年度之间不同批次难度差异分析
第20题:2017年试题整体比2018、2019年试题容易,对于清北和985考生2017和2018两年在20题的难度差异不大.对于一批、二批和高职高专考生,2017年难度和2018、2019年难度有一定的差异.
第21题:3年难度总体差别不大,2018年略容易.对于985考生,3年难度稍微有差异,2017年985考生作答该题的平均难度为0.74,2018年的平均难度为0.82,2019年平均难度为0.59,其它批次差别不大.
通过分析可以发现,2019年压轴的第20和21题,虽然其难度分别为0.138和0.183,属于难题,但不同批次的考生得分差异明显,特别是对高水平高校的考生具有良好的区分度.因此对试题的评价应将难度和区分度结合起来进行,不同难度的试题发挥对不同层次考生的区分和选拔作用.
7结语
以考试统计数据为基础,描绘了各种统计图形,探讨了图形分析法在高考试题评价中的应用.通过以上分析可以看出,利用图形分析的方法可以很好地解决研究中提出的两个问题,一是直观地展示考试数据分析结果及其意义;二是对统计数据相同的试题,展示其对不同层次考生的区分功能.
(1)利用图形分析法对试题、试卷统计数据进行深入分析,可以更直观、更形象地展示试题、试卷的功能和作用,同时可以更细致、更详实地揭示试题、试卷的功能和作用,使公众和命题人员更便捷、更深入地了解试题的难度、区分度、区分考生的能力和层次,更有效、充分发挥统计数据对考试命题和试题评价的作用.
(2)考生分数分布直方图可以更为直观地展示全体考生的整体分布,展示分数分布的偏度、峰度和各分数段的人数百分比,反映试卷的质量和难度,同时也可以使教育者了解考生的整体分布和水平.
(3)不同批次考生成绩分布图、试题难度分布图反映了试题的难度和各层次考生的得分情况.特别是通过试题难度分布图,可以分析难度值相同的试题对不同层次考生的区分功能.有利于对试题难度的分析和控制,同时有利于在教学过程中,针对不同层次的考生进行因材施教.
(4)不同组别考生成绩分布图反映了试题的区分功能,同时反映了对各层次考生的区分情况.基于条件概率(不同水平考生条件下)的统计特征图形分析更加直观和有意义,为评价试题质量提供了更加丰富的手段和视角.对于过难的题目、过易的题目或者区分度过低的题目,图形分析法能够更容易地帮助公众、命题人员、分数使用人员找到题目的问题所在.基于条件概率估计给出的题目统计特征图形,外形上虽然与项目反应理论中的项目反应曲线相似,但不依赖于任何数学模型,原理简单,图形直观,可以广泛应用.
(5)数学试卷的压轴题虽然偏难,但清华北大、985高校、一批、二批录取的考生在两个压轴题的得分率差别较大,对高层次的考生区分显著,在高考选拔高水平考生中发挥重要的作用.
[1] 万玉凤.教育部考试中心发布《中国高考评价体系》[N].中国教育报,2020–01–08(1).
[2] 教育部考试中心.中国高考评价体系[M].北京:人民教育出版社,2019:11.
[3] 国务院办公厅.关于新时代推进普通高中育人方式改革的指导意见[EB/OL].(2019–09–02)[2019–10–11].https://zhuanlan.zhihu.com/p/80842215.
[4] 任子朝,陈昂,黄熙彤,等.高考数学新题型试卷质量分析研究[J].数学教育学报,2019,28(1):1–7.
[5] 任子朝,佟威,赵轩.高考试题难度预估研究[J].数学教育学报,2018,27(5):13–16.
[6] 任子朝,佟威,赵轩.高考试题难度预估的校准与改进研究[J].数学教育学报,2019,28(6):1–4.
[7] 杨志明.提高选择题区分度的若干方法[J].教育测量与评价,2017(2):5–10.
The Use of Graphics in Evaluating and Representing Quality of Items from College Entrance Examinations
REN Zi-zhao, ZHAO Xuan, GUAN Dan-dan, XU feng-xian
(National Education Examinations Authority, Beijing 100084, China)
Abstract:
The difficulty and discrimination of testing items are evaluated and
represented using numerical values. The visual display of items
qualities from high-stake test like college entrance examinations
through graphics has advantages for public and item developers to
understand the testing quality related to item difficulty and
discrimination. Score distribution histograms reflect the distribution
of the examinees. The score distribution chart of different batches of
examinees can help us understand the distinctions between each test item
for each level of examinee. The difficulty distribution chart of the
test items can reveal in-depth information about the discrimination of
examinees in different range of overall test scores. The score
distribution chart of different groups of examinees can help us
understand the scores of each group of examinees and the trend of their
scores. The comparison chart of test difficulty in different years helps
us compare the level and change of test items across years.
Key words:
college entrance examination; item quality; graphics; difficulty; discrimination
数学教育学报JME
长按ErWeiMa
相关资源