薛明锋　陈平：PISA2015科学素养测试题目难度与题目属性的关系探究

Original 薛明锋　陈平中国考试 2021-09-10

作者：

薛明锋，北京师范大学中国基础教育质量监测协同创新中心；

陈平，北京师范大学中国基础教育质量监测协同创新中心。

原文刊载于《中国考试》2020年第3期第35—40页。

摘要：本研究对PISA2015科学素养测试数据进行二次分析，探索题目难度与题目背景、知识、素养、形式以及认知需求的关系。结果发现：1）题目所测的素养和题目背景对题目难度的预测作用不显著；2）题目形式、知识类型与认知需求对题目难度的预测作用显著；3）涉及高认知需求和认知性知识的人工评分开放型题目的难度显著高于其他题目。研究题目难度与题目属性的关系，可以提升题目命制的有效性。

关键词：PISA；题目难度；题目属性；科学素养

　　难度是评价题目的重要指标。了解题目难度的来源同样重要，因为这直接关系到题目能否有效测到所需要测量的结构。Pollitt等指出难度可以分为合理的（legitimate）和不合理的（illegitimate）：合理的题目难度来源于题目试图测量考生的技能和知识水平；不合理的题目难度源自考生与题目设计者之间的沟通失败，如题目本身没有很好地表述作答要求，或题目要求超出想测的领域^[1]。不合理的题目难度会损害题目的有效性；因此，对题目难度来源的研究，一方面可以加深对所测量结构的认识及验证测验理论模型，另一方面可以指导未来题目设计。
　　国际测评项目PISA，因其严谨性与科学性，已经成为大型测评项目的标杆。针对PISA科学素养测试题目的难度来源问题，已经有研究得出，题目的认知复杂程度、题目形式与题目难度之间存在预测关系，但是不同科学素养的题目难度差异不显著^[2]。这一结论是基于PISA2006得到的，PISA2015科学素养测试较PISA2006有很大调整，这些调整是否会导致题目的难度来源发生变化？基于此，本研究探索PISA2015科学素养测试题目难度与题目属性的关系。希冀通过这种研究，提供一种研究题目难度来源的方法，为提升题目命制的有效性提供一种思路。

PISA2015科学素养测试

　　PISA2006和PISA2015的主测素养都是科学素养，但后者的测试框架较前者有很大变化，主要体现在：1）科学素养的定义有调整；2）题目背景的文字表述更具体贴切；3）科学知识的分类由2类增加为3类；4）增加认知需求的题目标定；5）计算机化测试进一步推广，并成为PISA2015主要测试形式；6）PISA2015的参数估计模型由原Rasch模型转变为两参数IRT模型。以下介绍PISA2015科学素养测试框架。

1.1　PISA2015科学素养测试的题目属性
　　PISA2015科学素养测试框架涉及4个相关层面，分别为科学素养、科学知识、背景和态度^[3]，它们的关系如图1所示。首先，科学素养需要在一定的背景下展示，同时受到科学知识和对科学的态度的影响。在PISA2015科学素养框架中：素养可以细分为科学地解释现象、评价设计科学探究、科学地解释数据和证据3种能力；背景包括个人的、地区/国家的、全球的3个层面；科学知识分为内容性知识、程序性知识和认知性知识；科学态度可以分为对科学的兴趣、对科学探究的重视和环境意识。在对科学知识的3种分类中：内容性知识指科学中已经建立的关于自然界的事实、概念、观点和理论；程序性知识指实证研究中的核心概念和方法，如重复测量以减小误差和不确定性、控制变量等；认知性知识指对科学知识生产过程至关重要的概念和特征，如问题、观察、理论、假设、模型和论证的概念及它们在科学中的作用^[3]。其次，需要注意的是，科学素养通过能力测验进行测评，态度通过问卷测评。因此，设计一道测验题目需要涉及素养、背景和知识3方面内容。

　　测试框架是题目编制的指南，PISA2015在设计题目时除考虑上述3个方面外，还有一个重要创新，即增加了认知需求（cognitive demand）。认知需求与题目难度的关系最为紧密，PISA2015的认知需求改编自Webb的知识深度系统（depth of knowledge），分为低、中、高3个层次^[3]。低层次认知需求只需执行一个步骤，例如回忆一个事实、一个概念等；中层次认知需求是使用和应用概念性知识解释或描述现象，选择涉及2个步骤的程序，如组织展示数据，阐述与使用简单数据和图表等；高层次认知需求是分析复杂的信息或数据，整合评估证据，作出证明，判断理据的不同来源，制定解决问题的计划和步骤等^[3-4]。
　　综上，PISA2015科学素养测试框架中的题目属性包括题目所测的素养、背景、知识和认知需求。

1.2　PISA2015科学素养测试题目的难度来源
　　PISA2015测试框架提出影响题目难度的4个因素：解决题目所需的知识数量与复杂程度、学生对这些知识的熟悉程度、题目涉及的认知操作，以及答案是基于模型还是基于抽象的科学概念^[3]。在科学素养测试中，题目难度与部分题目属性之间关系密切。首先，题目难度与认知需求之间存在关系在众多研究中得到证实^[2,5-6]。如Le Hebel 等指出，涉及高认知复杂程度的题目最难，但是涉及中低认知复杂程度的题目不一定对应中低难度^[2]。其次，题目的形式，如题目呈现的复杂程度、文字数量、选项数量、作答方式，也都被认为与题目难度存在关系^[5-6]。以作答方式为例，开放题目显著难于选择题目^[7-8]。Stiller等指出题目是否出现专业术语也是影响题目难度的重要因素^[6]。最后，题目背景可能正向或负向影响题目难度^[2]，但也有研究者持不同意见，如Chiu指出科学素养题目的难度与题目背景无关^[7]。
　　综上，题目背景、题目所测的素养与知识、认知需求和题目形式都有可能是题目难度的来源。这些难度来源可能本身在题目设计者的计划之内，也可能是意料之外；但是不论哪种情况，都会影响考生作答，有时影响甚至是显著的。

研究方法

2.1　数据来源
　　PISA2015科学素养测评题目共有184道，其中包含85道趋势题（trend item，即以往几轮测试中使用过但未公开的题目）和99道新题。本研究所需变量即上述184道题目的难度、所测素养、题目背景、知识类型、认知需求以及题目形式。
　　研究变量相关设置如下：1）题目难度源自PISA项目组估计结果，即所有题目的IRT难度均值是0.04，标准差为0.56；2）题目所测科学素养细分成3个能力，且每道题目测量其中一个能力；3）题目背景包括个人、地区/国家、全球3类，且背景的选择都与考生的生活和兴趣相关；4）知识类型包括内容性知识、程序性知识和认知性知识；5）认知需求分为高、中、低3个层次；6）题目形式根据作答形式和评分形式的组合共有4类，分别是电脑评分的简单选择题、电脑评分的复杂选择题、电脑评分的开放型题以及人工评分的开放型题。理论上，5个自变量的水平组合数有324种，但实际上184道题目的水平组合只有74种。

2.2　统计方法
　　主要统计工具为R语言。通过二次分析数据，即使用PISA已有的难度参数估计值进行分析。具体来讲，使用两参数IRT模型拟合二级评分题目数据，使用广义分步评分模型（Generalized Partial Credit Model）拟合多级评分题目数据。先对单个变量进行方差分析，然后将影响题目难度的变量进行对照编码，建立回归模型，分析变量不同水平对题目难度的影响。

研究结果

3.1　方差分析结果
　　以题目难度作为因变量，5个题目属性分别作为自变量进行方差分析，结果如表1所示。

　　由表1可知，不同素养（F=2.41，p=0.09）、不同题目背景（F=1.63，p=0.20）对题目难度的预测作用不显著。题目知识（F=6.63，p<0.01）、认知需求（F=8.47，p<0.01）和题目形式（F=11.95，p<0.01）对题目难度的预测作用显著，其中题目知识和认知需求的效应量达到中等以上标准，题目形式达到大效应量的标准。

3.2　回归分析结果
　　由方差分析结果可知，题目知识、认知需求和题目形式都可以显著预测题目难度。为进一步探索自变量不同水平对题目难度的影响，将自变量进行对照编码并建立回归方程。理论上这3个变量的水平组合数共有36种，但实际组合数只有24种，因此只需构建23个虚拟编码，即回归方程里包含23个系数和1个截距。根据Helmert对照编码的定义可知，系数的显著性检验的是，当前水平的均值是否显著高于或低于其他所有水平的均值。通过分析可知，模型检验显著（p<0.01，R²=0.29），3个自变量合计解释题目难度变异的29%，详细的系数结果见表2。

　　由表2可知，存在显著差异的题目基本来自人工评分的开放型题目。在人工评分开放型题目中：需要高认知需求、涉及认知性知识的题目难度显著高于其他类型题目（p<0.01）；高认知需求、涉及内容性知识的题目难度显著高于中、低认知需求题目及所有选择题目（p<0.05）；中等认知需求的认知性题目难度显著高于除高认知需求人工评分开放型题目之外的其余题目（p<0.01）。值得注意的是，涉及内容性知识的低认知需求人工评分开放型题目，其难度显著高于非人工评分的开放型题目。
　　电脑评分的开放型题目和复杂选择题不存在显著差异，这时的Helmert对照编码对应的是电脑评分的各种题目。更具体一点，在电脑评分的题目中，开放型题目的难度并不显著高于复杂选择题和简单题的难度均值；在电脑评分的题目中，复杂选择题与简单选择题之间的难度不存在显著差异。但是在电脑评分的题目中，简单的选择题如果涉及过程性知识、高认知需求，那么它们会显著难于其他简单的选择题（p<0.01）。需要注意的是，简单选择题不涉及认知性知识，PISA2015没有此类题目，故本研究无法获得简单选择题认知性知识和其余知识类型的关系。

讨论与启示

　　本研究发现，对题目难度有显著预测作用的变量是题目形式、认知需求和题目涉及的知识类型3个变量，其中题目形式的效应值最大，回归分析结果显示人工评分的开放型题目难度显著高于其他类型题目。这与前人研究结果类似，即题目形式会影响题目难度，开放型题目往往比选择题要难^[2,5]，PISA2015即使增加了可以进行交互的题目也没有改变这一结果。此外，复杂选择题和简单选择题之间没有发现显著的难度差异。

　　PISA2015科学素养测试框架中的题目难度是知识广度、复杂程度与认知操作的结合。解答题目涉及一系列认知过程，高认知需求题目需要分析复杂的信息，因此涉及更多复杂的认知操作过程。认知的复杂程度与题目难度相关，涉及高认知需求的题目的难度也更大^[9]。本研究结果也充分体现这一点，即认知需求和知识类型都可以显著预测题目难度，两者的效应值也比较接近（都达到中等水平），其中高认知需求题目的系数更常出现显著结果，更可能显著地难于其他题目。
　　PISA2015科学素养测试框架中的科学素养需要借助知识展现，知识类型是构成题目的重要成分；但是PISA框架中并没有直接描述知识类型与题目难度之间的关系，而是提及考生对不同知识的熟悉程度会影响他们的作答^[3]。本研究中，知识类型是影响题目难度的重要因素，且涉及认知性知识的题目更有可能出现显著差异，即涉及认知性知识的题目更难，这或许是考生对认知性知识感到更陌生、运用也不娴熟而导致的。
　　本研究中，题目所测素养的方差分析结果不显著，这与Le Hebel等基于PISA2006科学素养测试的分析结果一致，也说明PISA2015科学素养的改动并没有引发其在预测题目难度作用上的明显改变。与Le Hebel等研究结果不同的是，本研究中题目背景并不能显著预测题目难度，因为本研究采用的是PISA项目标定的题目背景，而Le Hebel等用的是学生对题目背景信息的熟悉程度，这意味着题目背景可能并不直接影响题目难度，而是通过学生对题目背景的熟悉程度间接影响题目难度。
　　本研究对科学素养题目设计有4点启示：1）题目形式对题目难度的影响程度非常大，要选择合理的题目形式，如设置较难的题目可以采用开放型题目形式；2）设计一道难度适当的题目要考虑题目认知需求，如认知成分的多少及复杂程度等；3）知识类型上涉及认知性知识的题目会更难；4）题目背景不会直接影响题目难度，但可能会产生间接影响，因此设计题目过程中也需要考虑该因素。
　　本研究仍存在一些不足之处：一是研究采用的题目难度值来源于 PISA项目组的估计结果，虽然这些难度值是基于所有学生样本得到的，但难免存在误差。如果在存在误差的难度值数据上进行研究分析，会增大犯第一类错误的概率；因此，可以使用解释性项目反应理论模型，将题目属性纳入题目难度的估计，以尽量减少误差影响。二是由于PISA项目组没有公开2015年科学素养测试的题目，因此本研究无法探讨一些重要的难度影响因素，如题目是否包含学术用语或者题目长度等，这些因素都值得PISA公开题目后进行进一步研究。