中小学教育质量综合评价改革面临的难题

时间：2022-10-30 13:25:05 来源：网友投稿

教育质量综合评价与教育质量监测，两者有很大差异，因此，如果对两者的差异认识不清，如果以教育质量监测代替教育质量综合评价，实验的设计和结果会偏离《意见》的精神及要求。

教育质量综合评价改革实验《评价指标框架（试行）》不等于实验标准和模式

2013年《意见》明确给出了中小学教育质量综合评价改革的总体要求、综合评价体系建设要求、完善推进评价改革的保障机制要求和认真组织实施要求，并规定中小学教育质量综合评价改革实验必须要符合上述要求。《评价指标框架（试行）》给出了20个关键指标、上百个指标考查要点。从实验系统工程的角度看，《意见》和《评价指标框架（试行）》并没有给出实验开展的基本架构和标准，具体包括：实验的理论架构，含测量、诊断、甄别、评价等的理论架构；实验的技术架构，含测量、统计、分析、诊断、甄别、评价、结果呈现、使用等技术架构；实验的标准架构，含测量、诊断、甄别、评价等维度及标准体系与结构；实验的内容架构，文件中虽然给出了评价内容，但没有给出内容结构；实验的结果架构，即测量评价的过程与结果数据结构（结果呈现）；实验的结果应用，即结果应用的要素和结构（怎么用、谁使用等）。

美国教育评价发展的历史带给我们若干启示。美国大型测试分数报告主要源自两大测试体系：一个是由国家教育进步评估组织（NAEP）向公众发布的国家报告卡及参评州的测试报告；另一个则是各州基于课程标准对3-12年级学生实施标准化测试，生成独立的州学业报告。国家报告卡的报告框架主要分为四个方面：测试成绩的总体趋势，各组学生的成绩比较，学科领域的成就水平描述及各州学业成绩比较，并以常模参照和标准参照的方式报告学业成就的变化。与NAEP报告相比，州级报告除了以图表呈现3-12年级各类学生达到及格、精通、优秀的人数及比率外，对参评学生的分类指标更具体。增设了如残障儿童，提供适应性测试情况，参与“联邦Title 1”项目，入学时间，是否移民等指标。

美国标准测试分数报告具有4种功能：提供相关方教育信息，监测全国教育质量，实施绩效问责制度以及监督不同群体学业成就机会。而州的学业报告主要用于教学改进及对学区和学校的绩效问责。

无论是从国外教育评价的先进经验看，还是从理论和技术的角度看，中小学教育质量综合评价改革实验要解决的问题是在《意见》和《评价指标框架（试行）》的指导下，通过实验开展至少上述6个方面的探索，并同时解决与之相关的实验验证、科学鉴定及相关配套制度、机制、资源等问题。

中小学教育质量综合评价需要破解的理论、技术难题

依据《意见》和《评价指标框架（试行）》的要求，本次教育质量综合评价应确立的评价指标、标准体系等，除教育质量监测之外，主要涉及到学业评价、综合素质评价以及标准化考试三个领域。这三个领域都有其需要解决的理论、技术与方法难题，唯有清晰认识到这些难题并致力于解决这些难题，才能确保改革实验取得成功。

中小学生学业评价需要破解的理论、技术难题。我国2001年的《基础教育课程改革纲要（试行）》和2002年《教育部关于积极推进中小学评价与考试制度改革的通知》及相关文件，给出了“三维”学科教育目标和学科课程标准，学科教育目标不再是过去的“双基”目标，而是“三维”目标。

依据三维学科教育目标与学科课程标准的要求，学业评价应解决学生、学校在学科教育上的“三维目标”测量与评价问题，而不再仍局限于“基础知识、基本技能”的两目标测量评价。如果能科学可靠地实现对学生学科学习的三维目标评价，也就在学科教育方面，突破了“在评价内容上重考试分数忽视学生综合素质和个性发展，在评价方式上重最终结果忽视学校进步和努力程度，在评价结果使用上重甄别证明忽视诊断和改进”的关键问题之一。

然而迄今为止，大多数研究者、应用者回避了在“三维”目标学业评价上的突破，采用通过对学生其他方面的评价（主要是综合素质、社会调查），来推理或相关分析等间接解决“三维”目标中的非双基目标之外的其他维度评价的问题。主要原因是因为还没有从理论和方法上突破学生学科学习的三维目标测量与评价难题。显然，这个问题是绕不开的，更何况2002年《教育部关于积极推进中小学评价与考试制度改革的通知》及相关文件，明确要求了学业评价的新的目标、标准和依据。

就学业评价而言，评价理论、标准、技术和方法的设计要满足三个前提条件：首先要符合国家提出的关于教育评价与考试改革的新要求，即评价要在“引导、诊断、改进和激励”功能上取得实质性的突破，其中最为重要，也是最困难的是诊断、改进功能的实现；其次，要符合新课程改革的课程目标和课程标准要求，即符合“知识与技能，过程与方法，情感态度和价值观”的三维课程目标，以及据此形成和完善的新课程标准要求；最后，评价结果要能与国际学业成绩评估接轨。以这三者为前提条件的学业评价技术，需要在以下几个方面实现突破：

一是要有机整合国际知名教育理论以及教育学、心理学等学科的最新研究成果，建立多元、多维的测量和评价技术模型，使学业诊断和甄别有据可依。

二是要在试卷结构、试题赋分、计分和统计分析上，依据认知行为与思维等的发生过程，设计新的多元、多维的分数结构，为学业诊断和甄别提供丰富的信息，也为不同测试之间的等值转换提供重要的参考。

三是在成绩报告方面，应学习和借鉴国际大型标准化测试的报告系统，不仅能提供数据多元、多维、多重比较结果，而且能提供面向不同群体的数据报告，从而能为教育咨询等提供可靠、可信、有效的科学工具，也能为教研、教学、管理等提供可靠有效的科学平台和工具，并为教师专业发展提供科学的操作平台，从而得以实现突破“在评价内容上重考试分数忽视学生综合素质和个性发展，在评价方式上重最终结果忽视学校进步和努力程度，在评价结果使用上重甄别证明忽视诊断和改进”的难题。

中小学生综合素质评价需要破解的理论、技术难题。此前各地在学生综合素质评价方面的探索已经积累了一定的经验，然而依旧还存在以下问题尚未解决：中小学生综合素质评价概念界定不清；评价的标准和指标体系不够完善；评价方法、技术不科学，存在一定主观性、随意性和随机性；结果不够全面，缺少可比性；评价过程不规范，不透明，公信力较差等等。

考察学生综合素质评价较为发达的美国会发现，自20世纪60年代后，“表现性评价”（performance assessment）、“真实性评价”（authentic assessment）或“情境性评价”作为评估学生综合素质，并作为标准化考试评价方式的重要补充被提出之时起，经历了表现性评价兴起期，表现性评价快速发展期，以档案袋评价法为代表的表现性评价全面推开期，档案袋评价法的电子化和信息化时期以及档案袋评价法深入发展期。如今，全美采用档案袋评价法的学校已经跨越从幼儿园到大学，群体从学生到行政人员，应用范围覆盖学生的毕业、教育问责、教师的雇佣、评价以及教师职业发展、行政人员的选拔与评价等等，档案袋评价法已经成为美国教育评价和人才选拔中一种不可或缺的评价方法。

将表现性评价结果纳入对学生能力和素养的考查范围，背后的理念是：学生能力和素养由多方面构成，任何一种评价方式都有其局限性，不能仅依靠一种评价方式得出的结论来评价学生，评价应该根据学生能力和素养的不同方面选取恰当的评价方式和手段；表现性评价强调评价任务的仿真性，强调完成任务所需的能力和素养应该是成人在社会中解决类似问题所需要的能力，通过此种方式获得的评价结果更能反映学校教育实现教育目标中的社会需求层面的程度。

美国多年的教育评价实践已经证明，和标准化考试提供的评价结果相比，档案袋在促进学生自我认识能力的提升和良好素养的培养、教师更好地理解学生及教学效果、为家长、招生单位提供更全面的信息方面，都有着不可替代的优势。尤其是借助信息化手段和网络而制作的电子档案袋，不仅具有指导学生成长的作用，其存储量大和便于获取的优势还有助于学生在需要时向各个机构，包括招生单位呈现。然而，档案袋评价也有其需要解决的一些技术问题，例如需要根据评价的目的精心设计档案袋内容，需要有科学的评分标准和评分量表，需要对评价结果加以解释并对应用做出指导，同时还需要对评分者进行培训，规范评分过程以保证评分信度。而这些在美国都已经有非常丰富的可供借鉴的经验。

通过对比分析我国当前学生综合素质评价领域中存在的问题，以及美国在此方面已经取得的成就和经验，本次教育质量综合评价改革中，就学生综合素质评价而言，需要破解以下几方面的难题：如何界定中小学生综合素质及其评价的概念；构建中小学生综合素质评价的理论体系及模型；健全和完善中小学生综合素质的评价标准；健全和完善中小学生综合素质评价的测量标准；健全和完善中小学生综合素质评价的指标体系；开发中小学生综合素质评价的评价工具；制定中小学生综合素质评价的工具操作标准；改进中小学生综合素质评价的结果呈现方式；建立中小学生综合素质评价的结果解释及应用系统；设计中小学生综合素质评价实验推广模式；设计中小学生综合素质评价公信力保障系统。

标准化考试需要破解的理论、技术难题。标准化考试，作为人才评估与选拔的重要手段之一，在这次改革中也需要解决和突破一些难题。

教育的目标之一就是培养人才。随着我国“科教兴国战略”与“人才兴国战略”合拢，素质教育改革与人才战略改革合拢，国家素质教育纲要、新课程标准与国家人才纲要及人才标准开始紧密衔接并逐渐成型。学业人才评估与选拔已经成为一个不可忽视和回避的课题了。而学业人才评估与选拔首先解决的问题就是学科、学业人才概念界定问题。

2014年2月，李克强总理主持召开的国务院常务会议确立了职业教育在人才培养体系中的重要位置，2014年9月出台的《国务院关于深化考试招生制度改革的实施意见》中明确提出“加快推进高职院校分类考试。高职院校考试招生与普通高校相对分开，实行‘文化素质+职业技能’评价方式”。由此学业人才评估与选拔又多了一个新的任务，即如何通过分类考试，实现学术型人才与技术型人才的评估与选拔。要解决这个问题，同样需要先对学术型人才与应用型人才进行清晰界定。

教育评价与人才评估发展到今天，已经积累了大量丰富的理论可供我们借鉴和使用。多元智能理论、教育目标分类理论、认知诊断理论、非智力因素理论、脑科学理论等已经在西方国家的教育评价与人才评估领域中得到了广泛应用。这些理论都表现出一个共同的特点，即对人的评价越来越是一个综合、复杂的过程。

在国内到目前为止，应该肩负着学业人才评估与选拔重要任务的中考和高考，缺乏明确的学业人才评估与选拔理论及相应的模型。没有理论和模型，人才评估与选拔的效度和信度就无法得到有效保证。美国教育研究协会、美国心理学会以及全美教育测量学会于2003年3月颁布的《教育与心理测试标准》在规定考试效度标准时明确指出：对每个测验分数的推荐性诠释和用途都应该有理论根据，并附有效度凭证及解释预期用途的理论综述（注解：理论根据应指明研究推荐性诠释需要什么样的前提条件。标准1.1）。测验研制人员应清楚说明测验分数应该怎样诠释和使用。测验适用的全体对象应清楚界定，测验所想测量的架构也应该清楚描述（标准1.2）。根据上述标准我们知道，考试要获得效度方面的有力支持，理论根据、测试对象的界定以及测量的架构都是非常重要的凭据。学业人才评估与选拔考试，作为高厉害性的考试，其效度凭据更为重要。因此，学业人才评估与选拔的理论及模型的构建是标准化考试改革需要解决的另外一个难题。

根据最新的人才成长一般分类标准，人才可以分为：学业人才、职业人才、专业人才、事业人才。与人才属性分类标准相对照，一般而言，职业人才对应操作（技能）型人才，专业人才对应研究（能力）型人才，事业人才对应复合型人才。在人才的成长阶中，学业人才是职业人才、专业人才、事业人才的基础，同时职业（技能）、专业（能力）、事业（复合）也是学业人才分化成长的三大方向。四种人才又分别分为从低到高的五个阶梯。

如何依据上述人才分类方向，形成学业人才的成长与发展的分类标准及其标准细目，并在人才理论模型及学业理论模型的整合模型基础上，构建出学业人才基础模型及测量评估基础模型，进一步发展出对应的学业人才基础标准体系以及测量评估内容与指标体系是标准化考试改革需要解决的又一重大难题。

上述关于标准化考试改革需要解决的难题仅仅是一些最基础的难题，是标准化考试改革取得成功的最根本的保障，但绝非全部。事实上，除了这些根本性的难题之外，标准化考试改革还有其他一系列需要克服和解决的难题。2014年9月颁发的《国务院关于深化考试招生制度改革的实施意见》将高中阶段的学业水平考试定位为“学生毕业和升学的重要依据”，同时也鼓励为学生提供每一个科目两次参加考试的机会，成绩择优计入高考总成绩的操作模式。这些改革要求无疑反映了要克服现行人才评估与选拔方式存在的各种弊端的良好意愿，然而对考试技术本身却提出了必须要应对的挑战，具体包括：如何在一次学业水平考试中同时完成学业成就达标检测，和学业倾向与发展潜力评价两种性质和目的完全不同的任务；如何解决多次考试之间的等值问题，从而确保学生从多次考试中所选择的高分是能力的体现而非考试差异所导致；如何改革高考成绩报告的呈现形式，使成绩报告能够容纳“两个依据，一个参考”的全部信息，为招生单位提供更丰富，更有效的信息，从而实现高校特色、专业特点与考生特质之间最大程度的匹配问题等等。

综上所述，本次教育质量综合评价改革要想取得成功，各实验区必须要对实验任务、实验要解决的难题以及实验要克服的困难等有清晰的认识，积极组织专业力量，在总结以往取得的成果和经验的基础上，将学生的学业评价、综合素质评价、标准化考试等改革工作向纵深推进，以期在实验结束时能取得实质性的成果，为我国中小学教育质量综合评价改革落地并建立长效运行机制作出积极探索。