基于学习测评数据的个性化评价建模与工具设计研究

发布于 2021-09-08 13:01 ，所属分类：数学资料学习库

| 全文共16793字，建议阅读时长16分钟 |

本文由《电化教育研究》授权发布

作者：牟智佳李雨婷彭晓玲

摘要

大量的测评练习是基础教育中开展学习测评的一种常态化评价活动，学习者由此产生的各类测评数据为分析其知识掌握水平和目标达成情况提供了数据基础。首先，对个性化评价以及教育测量理论进行了分析，将研究问题与理论的优劣进行耦合，确定以布鲁姆教学目标分类学和Q矩阵理论为理论支撑，以属性掌握概率方法为算法实现支撑，结合教育评价的实施过程构建了基于学习测评数据的个性化评价模型。该模型包括教学目标达成情况、知识点掌握程度两个维度以及知识点掌握度、学习风险问题点、学习目标达成度、课程成绩四个方面。其次，以江苏某高中高一50名学生的学习测评数据对个性化评价模型进行了数据检验，测评数据包含关于《解三角形》和《数列》的六个知识点。最后，在模型构建的基础上设计了个性化评价工具原型，并进行了UAT测试。研究结果表明：所构建的模型能够对学习者的学习结果进行个性化评价，帮助学生及时进行具有针对性的补救;相较于认知水平，教师更加学生的知识点掌握程度，其中，学习风险问题点是师生最关心的个性化评价数据;学生的认知水平和知识点的掌握程度正相关，表明测评数据是学生对知识点内化的外显形式;工具原型在不同维度上的UAT测试平均评价得分为8.834，表明该工具整体接受度较高，可用性较好，为后期工具的技术实现奠定了基础。

关键词：测评数据; 个性化评价; 教学目标分类; Q矩阵理论; 知识点掌握

一、研究背景

测量是评价的基础，评价是对测量结果教学意义的阐述。在测量理论指导下，学习评价结果逐渐由笼统测验分数转向精准个性化诊断结果[1]，以此来了解学习者认知结构与学习水平。然而，传统考试中教师多采用人工计算的方法，对学习者成绩、班级平均分、排名变化等进行统计分析，往往忽略试卷内容和试题作答情况等细节信息，造成数据信息不能得到有效记录、挖掘和利用。当人数、试题数及题型过多时，会因其计算时间长、工作负荷重导致错误情况的发生，影响评价结果的准确性和时效性。美国2016国家教育技术计划《未来学习准备：重塑技术在教育中的角色》[2]和我国《教育信息化2.0行动计划》[3]都强调，教育应依托大数据和人工智能技术，创新完善教育数据系统，促进个性化学习和教育治理。当前，数据驱动学习评价逐渐趋向智能化，针对基础教育考试数据收集不全面、分析浅层次、仅以分数论优劣的现状，本研究基于学生学习测评数据构建个性化测评模型，从不同教学目标达成情况、知识点掌握程度等维度分析学生的学习测评数据，进而为学生和教师提供个性化的评价报告，为各类学习平台实现个性化评价提供有效参考。

二、个性化评价研究现状分析

为了解近年来国内外个性化评价研究的整体状况，我们对国内外相关文献进行了梳理和内容分析，从而合理把握其整体研究状态，洞察其研究现状，发现可探索方向和亟待解决的问题。在此基础上，对个性化评价相关文献运用聚类分析及横纵对比方法发现目前相关研究主要集中在以下方面：

(一)教育测量理论及其差异对比研究

教育测量是根据测验理论和心理计量学的原理与方法，对学生学业成绩、智力水平、人格特征、品德状况等教育现象进行量化的过程，主要测量的是学生心理特征，侧重考查学生对特定知识、技能的掌握程度，教育对个体产生的影响，具有客观性、间接性、复杂性[4]。教育测量领域先后出现了经典测量理论、概化理论、项目反应理论及认知诊断理论等多种理论。其中，经典测量理论模型简单，使用性广，但是参数估计依赖于样本，试题难度和学生能力水平难以耦合;概化理论使用条件较容易得到满足且便于控制测量误差，但是对测量设计要求较高且容易受随机误差的影响;项目反应理论对学生和试题的分析估计准确，但计算方法复杂、工作量大，对能力的测量比较笼统;认知诊断理论可以深入学生的认知过程、加工技能和知识结构层面，但与大脑内部加工机制相关的描述性指标难以量化。

(二)个性化评价模型构建与系统设计研究

随着教育测量的发展和计算机辅助教学的应用，个性化评价模型构建与系统设计研究引起了教育领域和学术领域专家学者的重视。其中，比较具有代表性的是Yankovskaya等基于三个单棱镜和两个单棱镜的认知组件，构建了用于评估学生专业技能、设计课程学习轨迹的混合诊断智能系统[5]。牟智佳构建了基于电子书包的个性化学习评价模型，设计了基于教育大数据的个性化评价层次塔，并通过云管理层实现对教育云服务平台、云存储池和云集群计算平台的调控和管理，为后面开展个性化评价系统的设计与开发奠定了基础[6]。Hlaoui Bendaly等提出了一个名为Cloud-AWAS的云适应工作流电子评估系统，该系统根据电子评估活动、文件日志和个人信息等方面提取数据，创建了为学习者个体提供个性化评价的个人资料库，而且该系统可以无缝集成到任何学习管理系统中[7]。

(三)个性化评价的数据收集及评价标准研究

学习测评数据作为学习分析的基础，直接决定学习评价的信效度。陈明选等认为，学习测评数据主要包括以知识点为核心的知识点内容、类别、难度、多知识点关系等试题维度的数据，以及以学习者的作答情况为核心的得分、选项、解题过程等学习者维度的数据[8]。此外，在网络在线学习和移动学习管理系统中，学习测评数据还应包括在线学习时间、学习行为点击次数、电子档案袋等[9-10]。在评价标准方面，陈敏等认为，不同的学习者应采用不同的评价方案，即不同的学习者的评价维度、内容和标准是不同的[11]。基于此，他们设计了六种个性化的评价方案，以满足学生个体差异需求。

目前，国内外研究者从不同视角对学习评价进行了探索，构建了多种学习评价模型和系统，例如：基于过程性信息的个性化学习评价系统、基于网络学习行为的个性化评价模型、基于大数据的个性化学习评价模型与系统设计，从中我们发现，评价领域的学者开始评价系统的个性化、全面性、自适应性。在算法趋向上，研究者开始交叉使用多种新的算法来构建评价模型，并结合新的测量理论来不断提高个性化评价系统的信效度，以解决实际教学问题。尽管个性化评价在模型构建、系统设计方面已经取得了一定成果，但在数据采集的针对性、评价维度的基本性方面还存在不足，具体包括：(1)数据采集较为宽泛。现有的评价研究为确保模型和系统数据的全面性而采集大量不同类型的数据，在运算过程中出现数据仓库中数据的细化和综合程度低、参数软化、权重混乱等问题。(2)缺乏从知识点和认知层面进行的个性化评价。已有探索多从课程内容、线上及线下学习行为、课程结果等层面设计个性化评价模型及系统，没有落实到产生学习问题的最根本层面，即知识点和认知层面。针对上述问题，本研究基于学习者日常产生的测评试题数据，依据评价结果理论分析计算并设计个性化评价数学模型，解决数据与评价之间的转化问题。

三、核心概念界定与理论基础

(一)核心概念界定

1. 学习测评数据

从数据范围来看，学习测评数据是教育大数据的子集，它是整个学习过程中所产生的有关测评数据的集合，通过学习系统的测量工具可以记录、测量和评估学习者的学习过程、知识技能掌握情况、学习表现及其他学习情况。在对国内外相关研究文献梳理与分析的基础上，我们对洋葱数学、猿搜题、易题库和极课数据等主流的题库型教育软件及平台进行浏览、分析、梳理，最终将本研究中涉及的测评数据划分为学科知识点及其相关关系数据、测试题目及测评结果数据等两个维度。其中，测试题目及测评结果数据是本研究的核心数据，测试题目数据包括试题内容、编号、所涉及的教育目标、所涵盖的知识点等，学生作答情况包括答题正误、解题过程等。

2. 个性化评价

个性化评价是以每个学习者原有的知识水平和学习情况为基础，按照不同学习者表现出的不同起点和学习特征，设计出相应的评价标准和评价方法，由此评价学生的学习效果[12]。个性化的学习评价在于采用适合学习者学习特点的评价方式，以最大限度地促进具有不同个性特征的学习者自主、创造性的发展，经过不断强化反馈，最终实现提高学习效率的目的[13]。从上述定义对比中可以看出，有关个性化评价的概念界定缺少了相应的理论支撑及环境考虑，基于此，结合大数据和人工智能的时代背景，我们认为个性化评价即依据教育测量理论和教育目标分类理论，通过学生的作答表现系统地分析测评数据，对学生的知识水平和目标达成度等属性进行分析评判，提供个性化评价报告，以达到促进个性化学习目的的一种自适应评价方式。

(二)个性化评价模型设计理论基础

每种研究理论的合理性与优势皆有限度，单独的理论与教学实际和待解决问题不能实现契合。因此，我们通过对教育测量理论进行横纵分析对比，将研究问题与理论的优劣进行耦合，最终以布鲁姆教学目标分类学支撑学习者内部认知维度，它为目标属性的划分提供依据[14];以Q矩阵为个性化评价方法，它以数学公式的形式展现学生知识点的掌握程度，解决数据与评价之间的转化问题。

1. 布鲁姆教学目标分类学修订版

布鲁姆教学目标分类学修订版是安德森等人在原有理论基础上，借鉴现代心理学的研究成果，从知识和认知过程两个维度来区分教学目标。其中，知识维度包括事实性知识、概念性知识、程序性知识和元认知知识，主要协助教师区分教什么;认知过程维度分为记忆、理解、应用、分析、评价、创造六类，帮助教师明确促进学生掌握和应用知识的阶段历程[15]。本研究中，布鲁姆教学目标分类学的指导意义包括以下三个方面：(1)试题分类，根据两个维度各层级所代表的含义，将每一道试题分别在两个维度上进行分类;(2)属性划分，以布鲁姆教学目标分类学作为学生认知结构构成的理论基础，将知识和认知过程维度分别作为一个测量过程的属性，计算得到学生对于知识维度各类知识和认知过程维度各层级的掌握概率;(3)结果阐述，基于布鲁姆教学目标分类学中各类教学目标的含义，对计算得到的客观掌握概率结果进行阐述，作为相应的评价反馈。

2. Q矩阵理论

在布鲁姆教学目标分类学的基础上，本研究借鉴朱金鑫等人基于Q矩阵的属性掌握概率分类模型[16]，为学生知识掌握情况和认知结构变化的评价计算提供具体的方法和流程。Q矩阵是大部分认知诊断模型的基础，最早由Embreston提出，后经Tatsuoka完善形成Q矩阵理论。该理论通过确定不可观察的认知属性，并将其转化为可观察的试题作答模式，从而使不可直接观察的认知结构与项目上可观察的作答反应联系起来，为了解学生的认知结构提供基础[17]。个性化评价是通过学生的作答表现系统地分析测评数据，对学生的知识水平和目标达成度等属性进行分析评判，而Q矩阵理论在量化不可观测数据方面有独特优势，可以通过测评数据分类、处理、计算实现对学生认知水平的可视化呈现，且测评数据到有效评价信息的过程外显，契合教师的理解需求。

四、基于学习测评数据的个性化评价建模

(一)测评试题的分类及其标准化处理

试题归类作为考查知识点类型的基础，是了解学生对知识点掌握情况的重要手段。本研究将从教学目标分类和知识点分类两个维度对试题进行归类，以了解学生学习目标掌握情况，并依据学生测评数据隐含信息深度挖掘各知识点掌握情况，以此构建对学生个体具有针对性的个性化评价模型。具体内容为：(1)教学目标分类，实现从教学内容、学习结果到目标属性的转换。在使用布鲁姆教学目标分类学时，只需将教学目标中的名词、动词与两个维度上各层级之间的关系相对应，实现教学目标归类划分。例如：“运用正弦定理解答问题”这一教学目标中，动词“运用”与分类表认知过程类别中的应用对应，名词“正弦定理”与知识类别中的概念性知识对应，该教学目标属于应用概念性知识。(2)知识点分类，明晰知识点相关关系，实现从测评数据、知识点数据到编码数据的转换。首先，需要分析教材内容，将教材内容以相关知识点的形式呈现。在此基础上，确定试题涉及的所有知识点。进而将题目数据拆分成各个相互关联的知识点，以满足Q矩阵将学生的作答情况用1和0进行编码计算的前提需求，确保测评数据可以和Q矩阵进行耦合，从而扩大题目类型的适用范围。

(二)基于Q矩阵的评价结果理论计算

在上述研究结果的基础上，我们基于Q矩阵的属性掌握概率模型来实现对学习评价结果的计算、认识水平层级的诊断，该模型的可行性、有效性均已得到验证，满足教师从明晰数据到有效信息转化过程的现实需求。其计算步骤如下：

步骤一：假设在某个测试中，共有m个试题，n个学生，答对记为1，答错记为0。可得到所有学生在所有试题上答对或答错的项目反应R矩阵：

步骤二：假设所有试题只涉及l个属性，通过对试题进行分析，若试题涉及该属性则记为1，不涉及则记为0。由此组成一个描述测试试题与所测属性间关系的Q矩阵：

步骤三：根据以上得到的Q矩阵和R矩阵，利用矩阵乘法，可以得到每个学生在各个属性上的答对个数Nik，即学生i对涉及属性k的项目的答对个数：

步骤四：将学生i正确作答试题j的概率估计为该试题涉及的所有属性答对频率的乘积，若题目1涉及属性2和属性3，则学生1答对题目1的概率g11=f12×f13，题目3只涉及属性1，则学生2答对题目3的概率为g23=f21。由此可得到学生i答对试题j的概率：

步骤五：最后，学生i对属性k的掌握概率等于涉及属性k且学生i答对的所有项目的答对概率之和除以涉及属性k的所有项目的答对概率之和。至此，可得到所有学生对这次考试涉及的所有属性的掌握概率估计值：

(三)评价结果的可视化呈现

通过以上方法可以准确计算出每个学生对教学目标及各知识点的掌握情况，但教师和学生缺乏的往往不是数据而是有效信息，基于此问题，我们采用数据可视化技术呈现结果信息，帮助教师和学生快速掌握测评结果，提升教育决策的科学性[18]。考虑到认知评价结果的二维性，本研究选取了可将二维数据外显的数据可视化图形来对测评结果进行可视化呈现。其中，我们用三维柱形图表示学生对教学目标各个属性的达成情况，可以帮助师生明晰学生擅长或生疏的学习领域，并针对此因材施教，实现个性化评价的教学价值;用雷达图表示学生不同考试的测评结果数据，以此观察知识点掌握情况的动态变化过程;用网络图表示相关知识点的影响关系和单个知识点的掌握程度，可以直观发现学习困难的根本原因及学习成绩不理想的问题知识点，对存在学习风险的知识点及时进行有针对性的补救。

(四)基于测评数据的个性化评价模型生成

在确定研究数据、研究方法的基础上，我们对个性化评价维度和评价内容进行了梳理和划分，并由此构建了个性化学习评价模型，如图1所示。学生学习掌握情况包含内在和外在两种表现形式，在模型中我们以布鲁姆的二维教学目标来评判学生的内在认知水平，以此评价各个学习者不同认知层级的达成度;以知识点掌握情况为量化形式，以属性掌握概率方法为算法实现支撑，用直观数据展示学习者外在知识点掌握程度。在设计思路方面，个性化评价模型左侧圆轮是以Padagogy轮[19]为设计思路来源，以此表现数据基础以及评价维度的划分。并在此基础上，将模型加以引申、完善，该模型包含教学目标达成情况、知识点掌握程度两个维度，从知识点掌握度、学习风险问题点、学习目标达成度、课程成绩四个方面来实现对学生学习掌握情况的个性化评价分析。

其中，个性化评价模型的优势为：(1)以测评数据为基础，使得计算过程及反馈结果更加具有针对性，为实际教学提供个性化评价反馈信息，从而提高学习质量。(2)随着测评数据的累积，个性化评价与学生个体的真实学习情况趋于一致，并会逐渐起到个性化评价、问题诊断、预测预警等作用。在微观层面可以帮助师生了解学生个体对各个知识点的掌握状况，帮助教师制定针对学习者的个性化培养方案。在宏观层面，教师也可以从繁杂的测评数据中发现隐含的教学规律，从而为教师提供相关教学方案完善建议。

五、个性化评价模型的数据检验与计算分析

(一)研究对象与数据选取

本研究以江苏某高中高一50名学生为研究对象，其中男生28名，女生22名，以研究对象在某数据分析平台上的三次考试信息作为数据来源，对模型进行数据检验。经过和任课教师协同筛选，排除不在本次教学内容之内和学生作答数据不全的21道试题，共选取了52道考试试题数据。涉及的题型包含选择、填空、解答题，其中考试试题涉及的教学内容为苏教版高中数学必修5第11章《解三角形》和第12章《数列》。在此基础上，将题目数据分解成相关知识点数据以完成标准化处理，得到测试的知识点可以划分为正弦定理、余弦定理、正弦定理和余弦定理的应用、等差数列、等比数列、数列的综合应用六个知识点。

(二)学习目标达成度的个性化评价与分析

依据评价模型中基于Q矩阵的评价结果计算方法，学生教学二维目标达成度计算过程如下：首先，根据某数据分析平台上的学生答题数据，计算过程中答对记为1，答错记为0，通过统计学生对所有题目的作答情况，完成学生和试题的项目反应R50x52矩阵。其次，通过对试题进行分析、归类，将试题与所涉及的布鲁姆教学目标分类学中的12个二维目标进行耦合，详情见表1。将涉及的某一目标属性记为1，不涉及记为0，得到52道试题和12个二维目标属性的关联矩阵Q52×12矩阵，明晰测试试题与所测属性间的关系。

图1 基于学习测评数据的个性化评价模型

表1 基于试题和二维目标属性的关联Q矩阵

表2 学生二维目标掌握概率估计值

计算得到学生对二维目标属性的掌握概率估计值，将认知水平用具体的数值外显化，可以帮助教师掌握学生对不同知识属性的内化吸收状态，详见表2。我们在上述表征学生作答情况的项目反应矩阵R矩阵和表征试题、属性间关系的Q矩阵的基础上，利用矩阵乘法N50×12=R50×52Q50×12，计算每个学生对涉及12个二维目标属性试题的答对个数，得到50个学生在12个二维目标属性试题上的答对个数N50x12矩阵。之后，通过公式为涉及属性k的所有试题个数，计算每个学生对12个二维目标属性试题的答对频率，得到50个学生对12个目标属性的试题的答对频率F50×12。再将学生i答对试题j的概率估计为该项目涉及的所有属性答对频率的乘积：gij=，计算得到50个学生在52道试题上的答对概率G50×52矩阵。最后，学生对属性k的掌握概率等于涉及属性k且学生作答正确的所有试题的答对概率之和与涉及属性k的所有试题的答对概率之和的比值，即pik=。

在得到每位学生在知识目标、认知过程目标以及知识与认知过程二维目标的达成度的基础上，进一步从班级的平均情况和学生的个体情况两个方面对其进行统计分析。分析结果表明：在班级平均情况方面，整个班级对布鲁姆教学目标的平均达成情况随层级的升高而降低;学生普遍对“记忆”“事实性知识”掌握最好，随着认知过程层次的升高，知识越来越抽象，学生的目标达成度依次降低，详情如图2(a)所示。在学生个体情况方面，将A学生对布鲁姆教育目标的达成情况与班级平均情况进行对比，发现该学生高层次认知能力低于班级平均水平，应该加强对事实性知识的学习，逐步提高自己的高层次认知水平。此外，将不同分数段具有相同分数的学生进行对比，发现分数相同的学生认知分布也存在差异，如图2(b)所示。因此，生生帮扶并不一定是优生辅导差生，量化认知属性等级、找出互补区间、增加生生有效互动显得尤为关键。

(a)

(b)

图2 教育目标达成度、相同分数学生教育目标达成度对比

(三)知识点掌握程度的个性化评价与分析

通过上述计算，我们得到该班级50名学生在所有知识点上的掌握概率估计值，具体见表3。从班级的平均情况和学生的个体情况两个方面对知识点掌握计算结果进行统计分析，结果如下：(1)通过对班级知识点平均掌握程度的分析，可以帮助教师找准薄弱知识点，对班级普遍掌握较差的知识点进行统一讲解。如图3所示，学生整体对知识点掌握情况由高到低依次是余弦定理>正弦定理>等差数列>等比数列>正弦定理和余弦定理的应用>数列的综合应用。(2)在学生的个体情况方面，我们进行了学生个体的各个知识点掌握情况横向对比，发现存在学习风险的知识点，例如：48号学生的数列综合应用明显低于其他知识点的掌握程度，以此提出有针对性的指导建议;其次，针对各个知识点进行不同学生掌握情况的纵向对比，以此发现互补点，寻找合适的学习伙伴。

表3 学生知识点的掌握程度

我们将知识点掌握程度的计算结果与教师对学生的宏观评价、学生知识点掌握情况自评进行了对比，其中，36名学生认为计算结果和自己的真实状况一致;9名学生认为该计算结果比自己更加清楚自己的学习状态。在计算结果中，掌握程度较差的知识点即学习风险问题点引起了师生的共同，把该方面的个性化评价数据当作是解决学习问题，提高教、学效率的核心关键点。部分教师认为，随着测评数据的增加和完善，使得发现学习风险知识点、解决学习问题、减轻教学负荷、实现因材施教成为可能。

图3 班级知识点平均掌握程度

六、个性化评价工具的原型设计与UAT测试

在个性化评价模型构建与UAT检测的基础上，我们运用Axure对个性化评价工具进行了原型设计，并进行个性化评价模型的UAT测试。UAT即User Acceptance Test，也就是用户可接受测试，在本研究中主要是邀请师生参与测试流程，并鼓励师生对个性化评价工具原型进行质疑以及漏洞检测，以此得到有效反馈信息，迭代优化工具原型，提高普适性与实用性。期望我们的评价工具最终能够以插件的形式嵌入各个学校的网络教学平台中，为各类学习平台实现个性化评价提供参考。

(一)个性化评价工具的功能结构设计

在现阶段基础教育当中，教师和学生依旧是学习评价的主要参与者。在评价实施过程中，教师通过设置不同测评目标的考试来对学生的学习进行评价，学生则通过参与考试来获得评价。因此，评价工具在用户分类上可分为教师和学生两大类，在功能设计上可分为测试子系统、评价子系统和用户管理子系统。

1. 测试子系统功能

测试子系统的功能包括考试的整个过程，主要实现试题的录入与管理、编制试卷、在线考试、在线阅卷、成绩查询、试题推荐等功能。但在教学过程中，由于教师和学生所扮演的身份不同，在测试子系统的功能需求上也会有所差异。其中，教师模块包括多种编制试卷的方式、通知阅卷、在线阅卷、创建试题、试题录入与管理、题库管理、相关试题推荐等功能，主要帮助教师完成试卷的编制、考试的实施以及测评的组织。学生模块包括自我联系、同学竞赛联系、查看成绩、查看解析、综合测评推荐、经典试题推荐等功能，主要是帮助学生能够快速地获取考试信息。

2. 评价子系统功能

评价子系统主要是对收集到的学习测评数据进行分析，包括纸笔测试的考试数据录入、布鲁姆教学目标达成度、知识点掌握程度测评、答题时间分析、测评轨迹追踪记录以及常规分析等功能。教师模块与学生模块在功能上也有差异，教师模块重点是帮助教师通过分析考试数据，掌握班级学情，及时发现问题，调整教学，主要包括成绩的录入与管理、试卷分析、常规分析、目标达成度、知识点测评、答题时间分析、测试追踪、教学建议等功能。学生模块重点是帮助学生了解自身学习情况，发现不足与薄弱点，促进学习，主要包括查看个人或班级的成绩单、观察试卷得分情况、获得布鲁姆教学目标达成度和知识点测评结果、学科追踪、总分追踪、名词追踪、知识点掌握程度追踪以及学习建议等功能。

3. 用户管理子系统功能

用户管理子系统主要是指教师、学生对用户信息的管理，包括学科管理、班级管理、账号管理、接收通知等功能。教师模块提供了较为全面的用户管理功能及较高权限分配，主要包括任教学科、其他学科、任教班级、其他班级、分组权限、阅卷通知、测评报告、账号信息等功能。学生模块包括账号信息、考试通知、测评通知等。

(二)个性化评价工具的原型设计

在以上评价工具的功能结构设计基础上，结合现有网络学习平台测评功能和实践应用分析结果，采用Axure软件制作了评价工具各部分功能原型。其中，根据工具的结构功能设计，该原型主要可以分为三大模块：测试模块、评价模块和用户信息管理模块。测试模块对应于测试子系统中的各部分功能，体现在编制试卷、在线阅卷和数据录入三部分内容当中;评价模块对应于评价子系统中的各部分功能，主要体现在测评分析部分，包括了常规分析(成绩单、得分分布等)、目标达成度、知识点测评等评价内容当中;用户信息管理模块对应于用户管理子系统中的各部分功能，在原型中用个人信息UI图标作为该模块的入口。

(三)个性化评价工具的UAT测试

在原型设计的基础上，选取了10位中小学一线教师和30位与本研究方向相近的高校研究者进行工具的试用，之后采用面对面访谈、视频访谈和电话访谈等多种方式对这40位试用者展开用户体验访谈。访谈内容为：如果从理论基础、测评功能、内容呈现、界面设计、用户体验感五个维度给该工具评分，每个维度的满分为10分，您会给多少分，为什么?对访谈问题量化评分结果进行统计，得到本次访谈的40名对象在不同维度上的平均评价得分，分别为9、8.75、8.75、8.92、8.75，分值普遍较高，说明该工具整体接受度较高，可用性较好。在以上访谈结果材料基础上，采用Nvivo软件对该工具的优点进行编码分析。经过三轮的调整，我们获得测评功能、界面与操作和理论基础3个一级编码节点，评价分析深入、知识点掌握程度测评、界面简洁、理论基础扎实和理论先进等10个二级编码节点。通过分析发现，功能全面、评价多样、布鲁姆教育目标达成度测评、知识点掌握程度测评等测评功能方面节点编码数量远高于界面与操作方面，说明相比于简洁的界面和简便的操作，该工具的测评功能更受被访谈者的认可。但也发现，相比于布鲁姆教育目标达成度测评，教师更倾向于知识点的掌握程度测评。

七、结语

基于学生测评数据的个性化评价为教师因材施教提供了可能，基于Q矩阵的学习结果评价模型满足了教师理解教育测量理论中的各种数理统计知识的需求。本研究对个性化评价流程、计算过程进行了剖析，并以布鲁姆教育目标分类理论和Q矩阵理论为理论依据，以属性掌握概率方法为算法实现支撑，从学习测评数据、个性化评价计算两个维度构建了个性化评价模型。同时，结合江苏某高中高一50名学生在某数据分析平台上的测评数据对模型进行了数据检验，通过一线师生的有效反馈对模型进行迭代优化以提高其科学性和准确性，对该模型的效能进行了实地考察以确保该模型的可行性与有效性。在确保个性化模型可行、科学、有效的基础上，我们运用Axure设计了个性化评价工具原型设计，并邀请相关研究人员进行了工具测试、体验，通过实践反馈进一步改善工具原型以提高其完整性和准确性。后面我们将个性化评价工具以插件形式进行技术实现，并将其整合到现有的教学平台中，对学习者进行个性化的过程分析评价，助力教师因材施教，最终帮助学生提高学习效果。

【参考文献】

[1] SHUTE V J，ZAPATA-RIVERA D. Educational assessment using intelligent systems[R].Tallahassee：ETS Research Report Series， 2008：5-6.

[2] U.S. Department of Education，Office of Educational Technology.Future ready learning：reimagining the role of technology in education[R].Washington，D.C.：American Institutes for Research，2016.

[3] 中华人民共和国教育部.教育部关于印发《教育信息化2.0行动计划》的通知[DB/OL].(2018-04-18)[2018-07-26].http：//www.moe.gov.cn/srcsite/A16/s3342/201804/t20180425_334188.html.

[4] 檀慧玲，李文燕，万兴睿.国际教育评价项目合作问题解决能力测评：指标框架、评价标准及技术分析[J].电化教育研究，2018，39(9)：123-128.

[5] YANKOVSKAYA A，DEMENTYEV Y，YAMSHANOV A.Application of learning and testing intelligent system with cognitive component based on mixed diagnostics tests[J]. Procedia-social and behavioral sciences，2015，206：254-261.

[6] 牟智佳. 电子书包中基于教育大数据的个性化学习评价模型与系统设计[J]. 远程教育杂志， 2014(5)：90-96.

[7] HLAOUI Y B，HAJJEJ F，AYED L J B.Learning analytics for the development of adapted e-assessment workflow system：CLOUD_AWAS[J].Computer applications in engineering education，2016，24(6)：951-966.

[8] 陈明选，王诗佳. 测评大数据支持下的学习反馈设计研究[J].电化教育研究，2018(3)：35-42.

[9] BOGDANOVIc Z， BARAc D， JOVANIc B，et al.Evaluation of mobile assessment in a learning management system[J]. British journal of educational technology，2014，45(2)：231-244.

[10] SHARIFI M，SOLEIMANI H，JAFARIGOHAR M.E-portfolio evaluation and vocabulary learning：moving from pedagogy to andragogy[J]. British journal of educational technology，2017，48(6)：1441-1450.

[11] 陈敏，杨现民. 泛在学习环境下基于过程性信息的个性化学习评价系统的设计与实现[J]. 中国电化教育，2016(6)：21-26.

[12] 谢冬梅.网络学习的个性化评价系统的研究与设计[D].上海：华东师范大学，2010.

[13] PARSAZADEH N，ALI R，REZAEI M. A framework for cooperative and interactive mobile learning to improve online information evaluation skills[J]. Computers & education，2018，120：75-89.

[14] HUBALOVSKY S，HUBALOVSKA M，MUSILEK M.Assessment of the influence of adaptive e-learning on learning effectiveness of primary school pupils[J]. Computers in human behavior，2019，92(3)：691-705.

[15] REX HEER.A model of learning objectives based on a taxonomy for learning， teaching， and assessing：a revision of bloom's taxonomy of educational objectives[EB/OL].(2017-02-08)[2017-07-26].http：//www.celt.iastate.edu/teaching/Revised Blooms1.html.

[16] 朱金鑫，张淑梅，辛涛.属性掌握概率分类模型——一种基于Q矩阵的认知诊断模型[J].北京师范大学学报(自然科学版)，2009(2)：117-122.

[17] 罗照盛，李喻骏，喻晓锋，等.一种基于Q矩阵理论朴素的认知诊断方法[J].心理学报，2015(2)：264-272.

[18] IFENTHALER D，ERLANDSON B E.Learning with data：visualization to support teaching， learning， and assessment[J].Technology， knowledge，and learning，2016，21(1)：1-3.

[19] COCHRANE T D ，NARAYAN V，OLDFIELD J. iPadagogy：appropriating the iPad within pedagogical contexts[J]. International journal of mobile learning & organisation，2010，7(1)：146-154.

Research on Personalized Evaluation Modeling and Tool Design Based on Learning Evaluation Data

MOU Zhijia1, LI Yuting2, PENG Xiaoling3

(1.Research Center for Educational Informatization, Jiangnan University, Wuxi Jiangsu 214122;2.Department of Educational Technology, Jiangnan University, Wuxi Jiangsu 214122;3.Department of Education Information Technology, East China Normal University, Shanghai 200062)

[Abstract] A large number of evaluation exercises are a kind of normal evaluation activities in basic education. The various evaluation data generated by learners provide a data basis for analyzing their level of knowledge acquisition and achievement of goals. Firstly, the paper analyzes the personalized evaluation and the theory of educational measurement, and couples the research problems with the advantages and disadvantages of theories. Then, a personalized evaluation model based on learning evaluation data is established, which is supported by Bloom's teaching target taxonomy and Q matrix theory, and attribute mastery probability method as well. The model includes two dimensions of the achievement of teaching objectives, the degree of knowledge point mastery, and four aspects of knowledge points, learning risk points, the achievement of learning goals, and course achievements. Secondly, the personalized evaluation model is tested with the learning evaluation data of 50 students in a senior high school in Jiangsu province. The evaluation data contains six knowledge points about "Solution Triangle" and "Number Sequence". Finally, based on the model construction, a prototype of personalized evaluation tool is designed and tested by UAT. The research results show that the model can make personalized evaluation of learners' learning results and help students to make targeted remedies in time. Compared with the cognitive level, teachers pay more attention to students' mastery of knowledge points. Among them, learning risk point is the personalized evaluation data that teachers and students are most concerned about; students' cognitive level is positively correlated with their mastery of knowledge points, indicating that the evaluation data is an explicit form of students' internalization of knowledge points. The average evaluation score of UAT test of the tool prototype in different dimensions is 8.834, indicating that the tool has a high overall acceptance and good usability, which lays a foundation for future technical implementation of the tool.

[Keywords] Evaluation Data; Personalized Evaluation; Taxonomy of Educational Objectives; Q Matrix Theory; Mastery of Knowledge Points

基金项目：2018年度教育部人文社会科学研究青年基金项目“基于测评大数据的学习预警与干预研究”(项目编号：18YJC880068);江苏省社会科学基金青年项目“基于教育大数据的学习风险预警与干预研究”(项目编号：18JYC006)

作者简介：牟智佳(1987—)，男，山东栖霞人。副教授，博士，主要从事教育大数据与学习分析、信息技术与课程整合等方面的研究。

转载自：《电化教育研究》

排版、插图来自gongzhong号：MOOC（号：openonline）

新维空间站相关业务联系：

董老师 15210808569

琚老师 15210770713

我们哒微博上线啦！！！

扫描下方ErWeiMa
给你不一样的
室联网·新维空间站

喜欢我们就多一次点赞多一次分享吧~

有缘的人终会相聚，慕客君想了想，要是不分享出来，怕我们会擦肩而过~

《预约、体验——新维空间站》
《【会员招募】“新维空间站”1年100场活动等你来加入》
《有缘的人总会相聚——MOOC公号招募长期合作者》

产权及免责声明本文系“MOOC”公号转载、编辑的文章，编辑后增加的插图均来自于互联网，对文中观点保持中立，对所包含内容的准确性、可靠性或者完整性不提供任何明示或暗示的保证，不对文章观点负责，仅作分享之用，文章版权及插图属于原作者。如果分享内容侵犯您的版权或者非授权发布，请及时与我们联系，我们会及时内审核处理。

了解在线教育，
把握MOOC国际发展前沿，请：
公号：openonline
公号昵称：MOOC