【摘要】在信息爆炸和人工智能技术飞速发展的21世纪,批判性思维作为个体生存和发展的重要素养,正受到越来越广泛的关注。精准而有效的测评是批判性思维教育的重要基础,传统的批判性思维测验主要采用抽象的客观题形式,存在生态效度不高和缺乏整体性评估等问题。近年来,研究者尝试以现实问题作为测验情境并且采用基于材料的论证写作形式,通过学生在真实问题情境中的表现预测其批判性思维水平。这一新型测评突破了传统测验的局限,将批判性阅读与论证写作相结合,保证测评维度更加全面。为了进一步实现新型测评的大规模应用,研究者需要完善测验信效度检验、借助自然语言处理技术实现论证自动化评分、获取多元的过程性数据并实现过程性评估、以智能化测评促进个性化培养。为此,需要心理测量技术与人工智能技术深度融合。
【关键词】 批判性思维;真实情境测验;智能化测评;心理测量;高阶思维能力;论证写作测验
迈入技术飞速发展和信息爆炸的21世纪,全世界都经历着从“知识取向”到“能力取向”的发展过程,人们开始思考什么能力素养是个体在未来生存和发展所必需的。为此,国际社会提出了“21世纪核心素养”的概念,批判性思维是21世纪核心素养中一项重要的高阶思维能力(Voogt & Roblin, 2012; Dwyer, Hogan, & Stewart, 2014; Rotherham & Willingham, 2010 ; Schleicher, 2012)。批判性思维(critical thinking)也叫“审辨式思维”,是为决定相信什么或做什么而进行的合理的、反省性的思维(Ennis, 1987),是个体基于良好判断并使用恰当标准对事物的价值进行评估和思考的过程(Paul & Binker, 1990),在决策和问题解决中发挥着关键作用(Butler, 2012)。如今,批判性思维已经成为现代西方教育体系中的重要组成部分,美国的大型标准化考试(如GRE、SAT等)均设置考察批判性思维的题目。批判性思维在国内也受到越来越多的重视,北京师范大学中国教育创新研究院发布的《21世纪核心素养5C模型研究报告》提出了“21世纪核心素养5C模型”,其中就包括批判性思维(审辨思考)。我国《国家中长期教育改革和发展规划纲要》(2010—2020年)指出,教育要培养大批量创新人才,探索创新人才培养的途径。批判性思维是培养创新性人才的重要前提和基础(董毓, 2017; Blake & Masschelein, 2003),一方面,批判性思考有助于突破固化的思维方式,促进新观点的建构(Marien, 2007);另一方面,批判性思维能够对思维的过程和结果进行审查,保证结论或方案的有效性(周建武, 等, 2012)。
评价是促成教育目标达成的重要手段。通过测评能够把握学生思维发展的优劣势,为教学和培养提供方向,因此批判性思维的测评备受重视。目前,批判性思维的测评工具依然以传统的客观题测验为主。随着心理和教育测评技术、计算机技术以及人工智能技术的发展,思维的测评和培养都有了新的方法和模式。在这一技术赋能的背景下,研究者们不断探索新型批判性思维测评方法以突破传统测验的局限性,同时将测评与教育相结合,利用智能技术实现个性化教育(辛涛, 2021),进而为培养面向未来的创新型人才提供方法(李静, 等, 2021)。本文简要梳理批判性思维测评的发展历程,阐述传统测验的局限性和新型测验的特点,并结合测评领域和计算机领域的相关进展提出批判性思维测评和培养的发展方向与挑战。
准确把握批判性思维的内涵是测评批判性思维的基础,测评框架的构建以及测评工具的开发需要依据对批判性思维这一构念的理解。批判性思维自提出至今,其内涵和结构不断深化和扩展,测评工具也随之发展和完善。以下基于对批判性思维界定的梳理,阐述传统批判性思维测验存在的局限。
(一)批判性思维的界定:从逻辑技巧到实际效用
20世纪70年代,“基于非形式逻辑的批判性思维运动”在北美兴起,非形式逻辑的推理原则和技巧为基于自然语言的论证提供了重要手段(Blair, 2015),也成为批判性思维的必要条件和重要内容(崔清田, 等, 2002; 武宏志, 等, 2005; Fisher & Scriven, 1997; Ikuenobe, 2001)。在此之后,很多研究者开始剖析批判性思维的内涵与构成,并各自提出了对于批判性思维的界定(见表1)。为了整合众多不同的界定,美国哲学学会召集46名批判性思维领域的专家,采用德尔菲法就批判性思维的内涵和结构进行了数轮讨论,最终达成了一致意见,认为批判性思维是“有目的的、自我调节的判断,具体表现为解释、分析、评估、推理,以及对判断所依据的证据、概念、方法、标准和背景的说明”(Facione, 1990a, p. 2)。该模型成为批判性思维领域研究者广为认同的模型,对后来的研究影响深远。
这一时期的批判性思维测验侧重考察非形式逻辑的推理原则和技巧以及对论证要素和论证关系的识别、分析和评估。例如《华生-格拉瑟批判性思维测验》(Watson-Glaser Critical Thinking Appraisal, Watson & Glaser, 1980)的测评维度包括推断、假设识别、演绎推理、解释、论证评估;《加利福尼亚批判性思维测验》(California Critical Thinking Skill Test, Facione, 1990b)的测评维度包括分析、评价、推论、归纳和演绎推理。
自21世纪以来,研究者对批判性思维的界定更加强调其应用和功能,将批判性思维置于社会文化背景和真实问题情境中。例如,哈珀(Halpern, 2003, p.6)提出批判性思维是“个体对能够增加理想结果概率的认知技能或策略的使用,是有目的的、理性的和目标导向的思维,这种思维体现在问题解决、推理、估计可能性和决策中”。此外,批判性思维内涵的广度也在拓宽,如考虑问题的背景和情境,根据实际情况评估不同观点的有效性(Saxton, Belanger, & Becker, 2012),识别情境中的不同视角并理解不同视角如何塑造了不同的立场、观点和决策(Mejía, Mariño, & Molina, 2019),处理问题情境中的冲突原则和信息(Oser & Biedermann, 2020)等。
批判性思维定义的变化反映了研究者对批判性思维更全面、更深入的理解。从表1中可以看出,批判性思维的界定从强调认知技能、聚焦逻辑和推理,逐步扩展为强调在实际问题解决中的应用。
(二)传统批判性思维测验:抽象解构的测验形式的不足
基于对批判性思维的界定和其结构的理解,研究者们开发了不同的批判性思维测验(见表2)。这些传统测验目前依然是批判性思维测评的主流工具,但其局限性不容忽视。首先,传统测验聚焦于逻辑推理和论证技巧,与日益丰富的批判性思维内涵不匹配,批判性思维界定中的某些重要方面也未得到测评,如自我调节。此外,传统批判性思维测验采用抽象解构的测验设计思想和分析性评估方法,将批判性思维拆解为不同的维度,针对各个维度命制题目进行独立测评,这种测验形式对知识及基本认知能力的测评具有有效性,但不适用于包括批判性思维在内的高阶综合能力的测评(Gobert, Sao Pedro, Raziuddin, & Baker, 2013; Quellmalz, et al., 2013)。批判性思维具有整体性,在实际应用中需要个体综合应用批判性思维的各个子技能(Halpern, 2003),子技能之间互相关联,共同影响个体的表现和结果(Facione, 1990a; Paul & Binker, 1990),因此传统测验中各维度得分的总和并不能完全代表个体批判性思维的整体水平。现实中的问题需要个体自主思考,形成自己的解决方案(Halpern, 2003),客观题封闭被动的作答形式只能测量个体是否具备一系列推理技能,难以预测个体在现实中的批判性思维表现。
论证写作的测验形式不对学生的作答进行过多限制,能够同时测评学生评估论证和构建论证的能力,体现出个体应用批判性思维的水平。主要代表有《Ennis-Weir批判性思维写作测验》(Ennis & Weir, 1985),其考察方式是要求学生以书面论证的形式对一篇论证材料进行分析和评价,材料中预设了一系列论证陷阱,如类比不恰当等。研究者根据学生提交的文本来评估其批判性思维水平。
尽管论证写作测验在一定程度上能够弥补客观题的不足,但由于施测和评分费时费力,因此在实际中应用并不广泛。鉴于这一情况,研究者尝试将客观题和主观题相结合,其中最具代表性的是《哈珀批判性思维测验》(Halpern Critical Thinking Assessment, Butler, 2012)。测验呈现一个简短的情境材料,通常为包含观点和事实的一段简短的论述,学生首先作答客观题(例如“你是否支持发言人的结论”),随后作答主观题(例如“提供两条能够优化该研究的建议”)。客观题和主观题相结合的测验形式兼顾了测评的效率和效果,更加全面地覆盖批判性思维的不同维度。同时,《哈珀批判性思维测验》材料取自日常情境,测验真实性有所提高,为后来的批判性思维测验的设计提供了重要参考。
除了上述测验形式,研究者也通过行为观察来评估学生的批判性思维水平,如对学生在课堂上的学习过程进行分析(Fani, Baiduri, & Rosyadi, 2018; Hartini, Mariani, & Sulaeman, 2020; Maulidiya & Nurlaelah, 2019)。这种测验形式能够获取学生在自然状态下的批判性思维表现,但需要专家投入大量时间和精力,并且易受评分者的主观影响,在一定程度上削弱了测验结果的客观性和有效性(Ennis, 1993)。
鉴于传统测验的上述局限性,为了更加全面、有效地测评批判性思维,研究者尝试引入新的测评理念和测评技术,探索新的批判性思维测评方法。从2010年左右开始,出现了一系列考察思维能力的学业成果测验,批判性思维是其中的重点考察对象。这类测验的代表包括The Collegiate Learning Assessment(简称“CLA”)和International Performance Assessment of Learning in Higher Education(简称“iPAL”)。CLA综合测评包括批判性思维在内的多种高阶思维能力,包括分析性写作任务和表现任务,iPAL则针对批判性思维开发了测验。CLA的表现任务以及iPAL的批判性思维测验采用了表现评估的思想,基于真实的问题情境并且以论证写作为主要测验形式,我们将这类测验称为“新型批判性思维测验”。下面基于CLA和iPAL的测验特点,阐述新型批判性思维测验的主要优势。
(一)采用真实问题情境以提高生态效度
CLA的表现任务和iPAL的批判性思维测验均采用了表现评估的思想(Aloisi & Callaghan, 2018; Shavelson, 2018),以真实事件作为样本,将其改编为测验所需要的情境和试题。测验为学生提供丰富多元的资料(如技术报告、公民来信、新闻社论等),资料内容的相关性和可靠性不定,学生需要批判性地阅读和分析,解决问题、得出结论或方案(Braun, Shavelson, Zlatkin-Troitschanskaia, & Borowiec, 2020; Davey, Ferrara, Shavelson, Holland, Webb, & Wise, 2015; Klein, Benjamin, Shavelson, & Bolus, 2007)。在CLA的表现任务中,学生担任某家公司的总裁秘书,销售部负责人提议采购一架飞机(SwiftAir 235)用于接待顾客,然而有公司成员认为SwiftAir 235的新机翼存在安全隐患,因此反对购买该飞机。学生需要批判性地阅读相关资料,以论证形式回答问题并给出建议。在iPAL的问题情境中,学生作为地方议会的代表,就在市中心以北建造风力涡轮机的提案进行讨论。学生阅读一系列资料,综合考虑多方观点,判断是否批准风力涡轮机的建造,推荐行动方案并撰写论证。
新型测验选取学生未来可能面对的现实问题作为测验情境,具有更高的生态效度。有别于HCTA等同样采用真实情境的测验,新型测验明确设定了个体担任的身份和需要完成的具体任务,整个测验是一个完整的问题解决或决策过程,这与批判性思维是有目的的思维的界定相符合(测验例题见表3)。
表3 CLA表现任务与iPAL批判性思维测验的比较
(二)将批判性阅读与论证写作相结合
CLA和iPAL的批判性思维测验采用了“基于材料的论证写作”这一测验形式,将批判性阅读与论证融合在一个任务中。学生首先对给定论证进行批判性阅读和分析,以材料中的信息作为证据撰写论证。研究者依据学生撰写的论证考察学生对给定论证的批判性分析和评估能力,以及形成观点和构建论证的能力。另外,也有少数测验采用完全开放的论证写作任务。例如,CLA的分析性写作任务要求学生就某一问题撰写简短的论证文(例如,政府应该把资金用于对犯罪的预防,而不是对犯罪分子的事后惩罚),题目不提供阅读材料和参考信息,学生需要利用个人经历和已有知识来支持自身的观点。虽然这种测验形式的开放性和自由度更高,但学生的个人经历和知识背景存在较大差异,所使用的证据的实际有效性难以确定,评分者只能采用粗浅、笼统的评估标准(如是否使用了证据来支持观点等),而无法对证据的内容有效性进行评估(Condon, 2013; Perelman, 2012; Shermis & Burstein, 2003)。相较而言,基于材料的论证写作更适合作为批判性思维技能的测评方法。研究者可以基于理论框架对材料进行预先设计,纳入相关性和可靠性程度不同的信息和观点,从而更加有针对性地考察各个子技能。
为解决单一的论证写作形式可能导致测验耗时较长以及评分压力较大等问题,新型测验采用客观与主观相结合的形式。例如,iPAL批判性思维测验将客观题作为“探针”,用于检验学生的批判性阅读能力、基于图表的推理能力和理性思考能力。CLA+在CLA的基础上加入了客观题,用于测量学生的科学和定量推理能力、批判阅读和评估能力(Zahner, 2014)。主观与客观相结合的形式不仅能够提高测评效率,也能够全面测评与批判性思维相关的重要技能,提供关于学生能力的更多信息。
(三)真实的问题情境为视角分析提供可能
视角(perspective)是指个体在不同情境中表现出的一致性(Davidson, 1984),反映了个体的世界观,决定了个体在特定问题上的立场、观点和行为等。高批判性思维的个体不仅能够分析和评估论证的各个要素,更能够以系统的方式分析论证,识别并考虑论证背后的视角(Paul, 1981)。已有基于论证的测验情境简单,包含的视角和立场单一且冲突性小,测评重点是识别论证中的推理漏洞和谬误等,未能考察到学生对论证及其背景的整体、深入分析,而这些深层次的思维过程是识别高批判性思维个体的关键。CLA和iPAL测验提供多元且存在冲突的立场,这为评估学生的视角分析能力提供了可能(Mejía, Mariño, & Molina, 2019)。例如,研究者基于iPAL测验评估学生的视角分析能力,测验提供了一所私立学校创始人的提案,要求学生阅读提案并提出改进建议。提案包括背景描述、学校的使命和愿景、课程设计原则和结构等,材料中隐含着不同的视角。例如,学校的使命和愿景以“教育公平”为导向,而课程设计的隐含假设却是“教育的目的是为学生找到高薪工作提供资源”。具有较高视角分析水平的学生能够识别出情境和材料中隐含的不同视角,理解不同的视角如何造成了表面上的分歧,基于不同视角来评估信息的相关性和重要性。视角分析水平较低的被试则会割裂地看待问题情境中的相关信息,而不涉及对其背后的视角的讨论(Mejía, Mariño, & Molina, 2019)。
新型测验超越了传统测验的单一论证形式,向更加开放的多论证模式转化,学生有机会面对和处理更多的冲突,权衡各方利弊,从而反映出学生论证分析的深度及其思维的辩证性。
(四)在分析评估的基础上实现整体评估
CLA和iPAL将传统测验的抽象解构的评估方式还原为整体性的评估方式,通过学生在实际任务中的表现和结果对个体的批判性思维能力进行整体评价(Davey, et al., 2015; Shavelson 2010; Zlatkin-Troitschanskaia, Shavelson, Schmidt, & Beck, 2019)。CLA的表现任务采用总分表示学生的批判性思维水平,不针对批判性思维的维度和指标进行评估(Shavelson, 2010; Wolf, Zahner, Kostoris, & Benjamin, 2014),仅在评分标准中列出了一系列参考点(例如,是否使用了材料中的相关信息来支持观点)。由于缺乏明确的评估框架,其测评有效性受到质疑(Aloisi & Callaghan, 2018),同时也无法提供细致的诊断信息(Saxton, Belanger, & Becker, 2012; Davey, et al., 2015)。
iPAL测验基于CLA的经验和不足,将个体的整体表现与维度得分和行为证据相匹配。研究者首先对学生的表现进行整体性评分,同时根据批判性思维的能力框架,确定四大评分标准和23个行为指标,根据行为指标进行分析性评分,即从学生的回答中寻找相应的证据。研究者通过访谈和统计分析方法(如因素分析)检验指标的有效性和可靠性,验证分析性评估的各项结果能否有效预测批判性思维的整体表现、能否提供有效的诊断信息(Zlatkin-Troitschanskaia, Shavelson, Schmidt, & Beck, 2019)。研究结果显示,将分析评估与整体评估相结合能够提高测评的精细化水平,保证评分的标准性和客观性。
新型批判性思维测验采用贴近真实的问题情境,基本解决了生态效度不高的问题,通过纳入更多元的、具有冲突性的视角和观点,提高测评的深度和广度。采用基于材料的论证写作并辅以客观题的测验形式,能够更加全面地测评批判性思维的各个方面,更有效地反映个体应用批判性思维解决实际问题的水平。然而,新的测评形式也带来了新的问题。为了实现新型测评的大规模应用,研究者还需要着力解决测验信效度和自动化评分等问题。与此同时,计算机和人工智能技术的发展为测验搭建、数据分析和评分等环节提供了重要帮助。例如,搭建虚拟仿真的测验环境(Gobert, Sao Pedro, Raziuddin, & Baker, 2013; Baker, Clarke-Midura, & Ocumpaugh, 2016),采集学生的过程性数据,实现动态性测评(Gobert, Sao Pedro, Raziuddin, & Baker, 2013; Vista, Awwal, & Care, 2016),利用自然语言处理技术实现对论证文本的自动化评分。下文将结合测评领域和人工智能领域的相关进展,提出目前和未来批判性思维测评的重要方面和挑战。
(一)探索新型测验的信效度检验方法
与以往具有明确维度结构的标准化测验不同,新型测验涉及更加复杂的任务设计和个体反应,其有效性需要更多实证研究来支持。为了在这一全新的测验情境中实现可靠、有效的能力评估,研究者需要探索新的测验设计和信效度检验方法。近年来,证据中心设计(Evidence-Centered Design, ECD)在能力测评领域得到了广泛的关注和应用(Lee & Recker, 2017; Mislevy, Yan, Gobert, & Sao Pedro, 2020; Snow, Rutstein, Basu, Bienkowski, & Everson, 2019)。证据中心设计是一种围绕证据的评估设计和评估实施方法,即通过任务设计来收集与目标能力相关的证据(Mislevy, Almond, & Lukas, 2003)。证据中心设计包括学生模型、证据模型和任务模型三部分。学生模型回答“测什么”的问题,依据相关理论定义目标特质的结构;证据模型回答“如何测”的问题,确定反映目标特质的指标和计分规则,如是否解决了问题、是否使用了特定的工具等;任务模型解决“用什么测”的问题,在学生模型与证据模型的基础上设计情境、任务形式和被试的反应方式。iPAL测验的任务设计就参考了ECD框架,研究者首先结合理论确定关键能力维度,随后基于预期的行动表现定义四个维度的评分标准,将其细分为23个指标作为证据,从而保证测评结果的有效性(Shavelson, Zlatkin-Troitschanskaia, Beck, Schmidt, & Marino, 2019)。
随着人机交互技术的发展,更多元的过程性数据得以获取和应用。研究者开始尝试在测验中纳入更加丰富的交互形式(如拖拽、标注等)(Liu, Mao, Frankel, & Xu, 2016)。相对自由开放的作答形式在提高测验真实性和沉浸性的同时,也对测评的有效性和准确性产生了影响,研究者需要根据批判性思维的理论结构和ECD等测验开发框架来明确采用某种特定的测验形式或作答方式的必要性。同时,广泛获取不同来源的效度证据,如认知过程等,从多个角度来证明测验的有效性。例如,使用出声思维的方法来了解学生在问题解决中的思维过程(Goldman, 2012; Quellmalz, et al., 2013),采用眼动技术捕捉学生的注意分配和注意转移(Alemdag & Cagiltay, 2018; Liu, et al., 2021; Wang, Tsai, & Tsai, 2020),获取学生在阅读材料上的边注作为学生思考过程的额外证据(Saxton, Belanger, & Becker, 2012),等等。
(二)借助自然语言处理技术实现论证自动化评分
论证写作是批判性思维测评的重要形式。目前,论证写作评分依然以人工评分为主,不仅费时费力,同时也存在主观性的问题(Ku, 2009; Rahimi, Litman, Correnti, Wang, & Matsumura, 2017; Williamson, Xi, & Breyer, 2012),这大大限制了论证写作测评的广泛应用。随着自然语言处理技术的发展,作文自动化评分也成为现实,研究者基于不同的测评角度开发了多种作文自动评分模型(付瑞吉, 2018; Jin, He, Hui, & Sun, 2018; Schultz, 2013; Uto, Xie, & Ueno, 2020)。作文自动评分模型能够自动提取作文特征,获取细分维度的评分,提高了评估的效率和客观化水平,因此也逐渐在批判性思维测验中得到初步的应用。例如,CLA尝试采用ETS开发的作文自动化评分工具e-rater(Burstein, Tetreault, & Madnani, 2013)对学生的分析性写作文本进行自动化评分。
论证写作的自动化评分属于作文自动评分的一个子类,但它具有独特性。一方面,已有的作文自动化评分模型主要针对一般性写作,能够应用于各种主题和文章类型,通常关注表面指标,如流畅性、结构性、有无语法错误等,较少反映写作的实质内容(Attali & Powers, 2008; Perelman, 2012)。而论证评估要求对文本的具体内容进行评估,论证质量取决于学生使用的证据是否可靠、推理是否有效等。另一方面,作文自动化评分通常不需要针对某一特质来制定评分标准(Attali, Lewis, & Steier, 2013; Schultz, 2013),而论证评估旨在通过论证文本的特征去推断学生的论证能力和批判性思维水平,需要研究者将文本特征与能力维度建立对应关系,对学生的能力表现进行评估。
鉴于论证写作自动评估的必要性和特殊性,研究者需要在自然语言处理技术和已有作文自动评分模型的基础上,结合批判性思维的具体任务来构建测量模型,从而保证论证写作自动评分的精细化和有效性。Rahimi等人(2017)提出了基于材料的论证自动评分系统来评估学生的论证能力,采用“能力-规则-指标”的测验构建流程。首先确定证据(Evidence)和组织(Organization)两大能力维度,分别提取对应的规则和特征。证据维度包括证据数量、证据相关性等规则和指标。组织维度关注学生论证中的主题阐发和转换。为此,研究者提供隐含多个主题的阅读材料,由专家预先对材料中的主题关键词进行分析和标注,据此在学生的作答文本中定位证据和所属主题,从而将学生的论证文本表征为主题网和主题链,再从中提取出各项指标,如主题密度等。该研究将论证文本特征与论证能力建立匹配关系,针对具体问题情境对学生的论证质量进行分析,同时应用自然语言处理技术实现特征自动提取和评分,在保证测验有效性的同时提高了评分效率。
(三)获取多元过程性数据并实现过程性评估
批判性思维测评的目标是为教育工作者提供关于学生批判性思维发展情况的信息,从而进行有针对性的指导,因此捕捉学生的思维过程至关重要。批判性思维具有阶段性,从理解到分析评估再到最终阐释结论,层层深入递进。但在实际应用中,个体对批判性思维的子技能的应用往往不完全遵循这一线性模型,个体可能跳过或重复某一子技能,并且个体的批判性思维在不同阶段的表现和特点可能存在差异(Braun, Shavelson, Zlatkin-Troitschanskaia, & Borowiec, 2020)。此外,批判性思维活动是一个螺旋上升的辩证认知过程,具有反复性,需要个体对自身的认知过程和认知结果进行持续监控、反思和修正(Facione, 1990a)。由此可见,过程性数据的捕捉和分析对于批判性思维测评具有重要价值,能够帮助研究者了解个体在表现任务中的认知历程。
目前,批判性思维的测量主要依据结果性数据,如学生作答的文本等,缺乏对批判性思维过程性差异的探索和分析。在已有针对高阶思维能力的测评中,研究者已经开始对过程性数据进行挖掘和分析,如采集个体在测验系统中的日志数据(Eichmann, Goldhammer, Greiff, Pucite, & Naumann, 2019; Lee, Donkers, Jarodzka, & Van Merriënboer, 2019)和键盘日志数据对学生的论证写作进行分析(Chukharev-Hudilainen, Saricaoglu, Torrance, & Feng, 2019; Leijten, Van Horenbeeck, & Van Waes, 2019)。利用智能技术捕捉和分析更加多元的过程性数据,能够了解个体批判性思维的发展变化,对学生表现进行动态分析和评价(辛涛, 2021)。在此基础上,研究者可以基于过程性指标将学生进行聚类,探索不同潜在类别的思维特点、反应模式和认知过程差异,不同批判性思维水平的学生在不同阶段的表现差异,以及不同阶段的表现对批判性思维整体表现的影响等问题。最后,过程性数据也是效度证据的重要来源,对过程性数据进行分析能够从过程性角度揭示测验有效性,从而对传统的效度检验进行补充。
(四)以评促学,实现技能与倾向双发展
互联网和人工智能技术的发展推动了批判性思维测评方法的发展,也为批判性思维的教育和培养提供了技术支持。相比传统测验,新型测验使批判性思维测评与培养的关系更加紧密。新型测评形式能够作为批判性思维培养的工具,真实问题情境不仅能够作为测验情境,同时也是有效的教学情境。在特定学科背景下设置问题导向的学习任务,将学习内容嵌入真实情境中,可以让学生在获取知识的同时提升批判性思维等高阶思维能力。论证是批判性思维测评的重要形式,也是培养批判性思维的重要载体(Jonassen & Kim, 2010; Oh & Jonassen, 2007),论证写作测验可以作为批判性思维的教材(Ennis, 1985),教师可以通过讲解论证测验来帮助学生学习论证以及批判性思维的相关知识和技巧。
智能技术催生了新的测评和教学场景,提供了丰富的过程性数据,将评价贯穿于教学活动的始终,能够为学生的思维发展水平提供细粒度的诊断信息,从而更加精准地提供指导,实现个性化测评和个性化培养的紧密结合(李静, 等, 2021; 辛涛, 2021)。此外,提升学生的批判性思维水平和实际表现,仅仅对技能进行测评和训练是不够的,唤醒和培养学生的批判性思维倾向同样是教育的重要目标。批判性思维倾向(Critical Thinking Disposition)是个体在各种实际事务中主动使用批判性思维技能和进行批判性思考的态度和意愿(Ennis, 1987; Facione, Sanchez, Facione, & Gainen, 1995; Halpern, 1999),涉及一系列个性特征、态度和情感倾向,如好奇、思想开放、思维灵活、诚实面对个人偏见、审慎作出判断、勤于收集相关信息等(Facione, 1990a)。批判性思维倾向难以在单次评估中充分测查,其培养也是一个长期的过程,需要基于对教学方法和培养模式的改进,并对较长时间内的实践效果进行观察和评估,如研究者采用基于问题的交互式学习(Gunawan, Harjono, Herayanti, & Husein, 2019)或协作学习等方法培养学生的批判性思维倾向(Karami, Pakmehr, & Aghili, 2012)。通过将测评贯穿到教学中,持续地激发、提升并评估学生的批判性思维倾向,实现技能与倾向的双发展。
高阶思维能力是智能时代个体发展的核心竞争力,计算机技术与人工智能技术的发展为突破传统测评的瓶颈提供了动力(田伟, 等, 2022),也为高阶思维能力测评提供了新的解决方案。目前,基于真实情境的新型测验已经成为高阶思维能力评估的重要方向,而随着测评技术和人工智能技术的进一步发展,测评数据更加多元化,模型更加复杂化,测评的准确性和实时性不断提高,思维的动态测评和自动化评分都将成为可能。在这一趋势下,研究者需要注重理论框架的确立,只有基于对高阶思维能力的内涵和结构的深入理解,才能有效地创设问题情境,激发特定维度的行为表现。同时,智能化测评需要吸取传统测评的优势,结合表现评估、证据中心设计等新型测评思想,提升测评的针对性和精细化水平,保证测评结果的可解释性和有效性。本文综述的关于高阶思维能力的研究也为技术赋能教育的开展提供了依据。智能技术已经成为培养学生思维能力的重要认知工具,研究者不断探究技术促进思维发展的教学机理(毕景刚, 等, 2020),建构人工智能时代学评融合的评价框架(张生, 等, 2021),从而利用智能技术来诊断和改进教学,提升学生的思维水平和创造潜能。