小雯是六年级的优秀学生,一直保持全A成绩。期中考试后,王老师当众宣布:“小雯,你只有历史是B,其他都是A,下学期一定能提高到A。”尽管得到表扬,小雯却感到沮丧和尴尬,匆忙离开教室。
小雯的反应反映了高成就学生的完美主义倾向。她为自己设定了极高标准,认为只有完美才足够好。王老师当众宣布成绩的做法不仅让学生感到不适,还侵犯了学生隐私权。
作为教师,我们最终必须确定学生在一个学期或学年中取得了什么成就。在这样做时,我们必须牢记良好评估的四个特征:可靠性、标准化、有效性和实用性。特别是,任何成就的总体指标都应该是可靠的,反映一致的成就模式而不是偶然事件。
评估学生表现需要简便的总结方法。评估分数通常采用三种形式:原始分数、标准参照分数和常模参照分数。
原始分数基于获得的分数或正确回答项目的数量百分比。20道选择题中答对15道得75%,论述题和实践任务得分3、5、8分总计16分。
原始分数易于计算,但难以解释其真正含义。75%和16分是否为好分数?不了解评估任务性质就无法判断分数价值。
只有在原始分数含义明确时才使用原始分数。
标准参照分数表明学生相对于特定教学目标或标准的成就水平。分为二元分数(掌握/未掌握)和等级分数(不同能力水平)。
游泳技能评估标准 学生需掌握以下技能:
掌握技能得1分,未掌握得0分。
写作能力评估标准
常模参照分数通过与其他学生表现比较得出,反映学生相对于年龄或年级水平的表现是否典型。包括年级等效分数、百分位分数和标准分数。
小明在阅读测试中60题答对46题。查阅常模发现,他的分数相当于11年级学生平均水平,年龄等效约16.5岁。小明实际13岁,八年级,表现优异。

百分位分数表示获得等于或低于该学生分数的同龄人百分比。小明的46分在八年级学生中处于第98百分位,说明他的表现超过98%的同年级学生。
百分位分数指人数百分比,非正确题目百分比。
百分位分数示例
百分位分数扭曲实际差异:小李和小王差异较小,小张和小刘差异较大,但百分位差都是10分左右。
标准分数反映学生在正态分布中的位置,表示表现距离平均值的标准差单位数。不同测试使用不同量表:
标准参照分数传达教学目标达成情况,将学生注意力集中在掌握目标上,通过显示进步增强学习自信心。当标准参照分数难以确定时,原始分数是次选,但无法具体反映学生掌握情况。
使用标准参照分数表明教学目标掌握程度。
常模参照分数适用于需要比较学生相对表现的场合,如选拔活动。但不应常规使用,因为会创造竞争环境,将注意力转向表现目标而非掌握目标,可能鼓励作弊行为。
仅在需要比较学生表现时使用常模参照分数。
学校普遍使用字母或数字等级总结学生成就,但存在局限性:教师标准不一、学生目标不同、促进表现目标而非掌握目标、可能导致作弊行为。尽管如此,成绩仍是最常见的成就总结方法。
确保准确性:成绩计算错误会影响学生升学和奖学金机会。电子成绩册虽然便利,但需谨慎使用,避免系统性错误。
基于成就评分:成绩应反映学习成果,不应因行为表现调整分数。用好成绩奖励合作或用低分惩罚违纪都会误导学生和家长。
依据客观数据:避免主观印象影响,基于正式评估的客观信息评分,明确告知学生期望标准。
多元评估策略:使用多种评估方式提高可靠性,但不必计算所有内容。允许学生在尝试新任务时犯错并从中学习。
最终成绩应反映教学目标掌握程度。小学阶段适合标准参照成绩,因为课程多为基本技能。中学阶段因升学需要,有时使用常模参照成绩。
成绩标准示例
建立合理评分标准并严格执行。避免中途改变评分规则,如突然增加作业权重来提高整体成绩,这会损害评分系统的公信力。
成绩只是学习成果的概括指标,应配合定性评价,描述学生具体优势、学习习惯、态度和独特贡献。定性评价往往比数字成绩更有信息价值。
单一成绩无法反映学生的具体优势和兴趣。作品集——系统收集的作品集合——能捕捉学生成就的多方面性质,包括写作样本、制作物品、多媒体创作等。
作品集有多种类型,各有不同用途。工作作品集展示学生当前能力,内容动态更新,新作品替代旧作品。发展作品集则专注于展示特定技能的进步过程,记录学生在某一领域的成长轨迹。课程作品集包含单一课程的作业和反思,帮助学生整理课程学习成果。最佳作品集则用于展示学生特定成就和才能,突出其最优秀的表现。
作品集评估具有显著优势,能够捕捉成就的多方面性质,强调复杂技能的掌握。它可以显示学生在时间进程中的成长,展示真实情境中的表现,培养学生的自我监控和评估能力,同时增强学生的成就感和自我效能。然而,作品集评估也存在一定局限性,主要表现在评分可靠性较低,教师评价标准不一致。此外,作品集标准化困难,内容因人而异,在有效性和实用性方面也存在一些问题。
作品集创建需要数周或数月时间,应分步骤进行:
使用作品集进行总结性评估时,需注意其在可靠性、标准化等方面的局限性。
标准化测试由专业测试开发机构的专家团队设计制作,供全国或地区内多所学校统一使用。这类测试的核心特征是在测试指导语、时间限制、题目内容和评分标准等各个方面都保持严格的一致性,确保所有参与测试的学生都在相同条件下接受评估。
每个标准化测试都配有详细的技术手册,其中包含完整的测试指导说明、具体的时间要求、标准化的评分程序和大规模常模数据。手册还提供测试的可靠性系数、各种有效性证据以及测试误差范围等重要统计信息,帮助使用者正确理解和解释测试结果。
学校教育中常用的标准化测试主要分为四大类别:成就测试、学术能力测试、特定能力测试和入学准备测试。每种测试都有其特定的评估目标和适用范围。
成就测试专门评估学生从正规教育中获得的知识和技能掌握程度,通常反映国家或地区通用的课程标准和教学大纲要求。这类测试可以产生常模参照分数(与同龄学生比较)或标准参照分数(与预设标准比较),用于反映学生在各个学科领域的广义成就水平。
主要用途:
典型示例:全国统一的语文、数学、英语等学科测试,通常涵盖多个年级水平,测试内容基于国家课程标准设计。
使用成就测试时,必须确保测试内容与本校课程目标和教学内容标准具有良好的匹配性和有效性。
学术能力测试主要评估学生的一般学习能力和认知潜力,重点关注学生从日常生活经验中学习、推理和解决问题的基本能力。这类测试通常用于预测学生未来在学术学习中的表现潜力,而不是评估已经掌握的具体知识内容。
特点分析:
应用场景:特殊教育安置决策、天才教育项目选拔、学习困难诊断等。
特定能力测试专门预测学生在某些特定学科领域或技能方面的学习潜力和表现水平。这类测试通常针对数学、音乐、艺术、机械操作等具体能力领域设计,帮助识别在特定方面具有天赋或潜力的学生。
常见的特定能力测试类型包括数学能力测试,主要评估学生的数学推理能力和空间想象能力;音乐能力测试,重点评估音高辨别、节奏感知等音乐天赋;艺术能力测试,专门评估视觉艺术创作和欣赏能力;以及机械能力测试,用于评估空间关系理解和机械操作潜力等方面的能力。
这类测试的主要使用目的是为特殊才能项目选拔合适的学生参与者,为学生的教育规划和职业选择提供科学的参考依据,同时也用于识别那些在特定领域需要特殊教育支持的学生群体。通过这些专门化的测试,教育工作者能够更准确地了解学生的特长和潜力,从而提供更有针对性的教育指导和支持。
入学准备测试专门评估学龄前儿童是否具备进入正规学校教育所需的基础知识、技能和社会适应能力。测试内容通常包括基本的认知技能(如颜色识别、形状辨别、字母和数字认知)、语言发展水平、精细动作技能以及社交适应能力等方面。
在评估内容方面,认知技能测试主要涉及颜色、形状、大小概念的掌握,以及基础分类和排序能力的发展。语言发展评估则关注儿童的词汇量积累、语言理解和表达能力的水平。数学准备度测试包括数字概念的理解、简单计数技能和基础数量关系的认知。精细动作技能评估涵盖握笔、剪纸、拼图等需要手部协调能力的活动。社交技能测试则重点关注儿童与他人合作的能力、遵守规则的意识以及情绪调节的水平。
然而,入学准备测试存在一定的局限性。首先,测试的预测有效性相对有限,测试结果与一年后学业表现的相关性通常只达到中等水平,无法准确预测儿童的长期学业发展。其次,儿童发展存在很大的变异性,不同儿童的发展速度差异显著,早期测试结果可能无法真实反映儿童的后期发展潜力。此外,环境因素对测试表现有显著影响,家庭教育背景、学前教育经历等外在条件会在很大程度上影响儿童在测试中的表现,这些因素与儿童的内在能力并不完全相关。
入学准备测试结果应仅用于教学规划和个别化支持,绝不应成为决定儿童是否准备入学或延迟入学的唯一依据。
选择合适测试:选择对特定目的有效性高、对相似学生可靠性高的测试。
确保常模相关性:
考虑发展因素:学生年龄、动机、自我调节能力等影响测试表现。
充分准备:提前为学生准备标准化测试,熟悉测试形式和要求。
严格执行:按照标准程序管理测试,报告异常情况。

计算机生成的测试报告虽然详细,但测试分数只是学生能力的粗略估计,对某些学生可能缺乏有效性。
解释指导原则:
标准化测试分数看似精确,实际只是能力的不精确估计,对某些学生可能完全不准确。
在教育评估过程中,学生的测试表现往往会受到与实际评估目标无关的各种外在因素影响,这种现象被称为评估偏见。当两个学生在某一学科或技能方面具有相同的掌握程度时,如果他们在测试中的表现却存在显著差异,这通常表明评估工具或评估过程中存在偏见因素。这些偏见可能来源于测试内容的设计、评估方式的选择,或者评估环境的安排等多个方面,它们会干扰对学生真实能力水平的准确判断。
文化偏见是评估偏见中最常见也是最需要关注的类型之一。当评估工具因为学生的种族背景、性别身份、社会经济地位或其他群体特征而对某些学生群体产生系统性的不公平影响时,就存在文化偏见。这种偏见往往隐藏在看似中性的测试题目中,但实际上却假设了所有学生都具有相同的文化背景和生活经历。
偏见示例:
数学题涉及棒球规则计算——这类题目假设所有学生都熟悉棒球运动的规则和术语,但对于来自不同文化背景或缺乏体育运动经历的学生来说,他们可能需要额外的时间来理解题目背景,从而影响其数学能力的真实展现。
写作题要求比较不同游泳场所——这样的题目预设学生有游泳或参观不同游泳场所的经历,但对于经济条件有限或来自内陆地区的学生来说,他们可能缺乏相关的生活体验,无法充分发挥其写作能力。
这些题目表面上测试的是数学计算或写作能力,但实际上却将学生的文化背景和生活经历作为了隐性的评估标准,对缺乏相关背景知识的学生造成了不公平的劣势。
传统的标准化测试通常采用限时、纸笔答题、多项选择题等固定格式,这种测试方式对某些文化背景的学生可能存在不利影响。不同文化背景下成长的学生在学习方式、思维模式和表达习惯方面存在显著差异。例如,一些文化传统强调深思熟虑和全面考虑后再给出答案,习惯于这种思维方式的学生在面对要求快速作答的标准化测试时往往处于劣势。他们可能具备扎实的知识基础和深入的理解能力,但由于不适应快节奏的测试环境而无法充分展现自己的真实水平。
对于非母语学习者来说,语言能力直接影响他们在基于特定语言的评估中的表现,这种影响往往超出了评估本身想要测量的学科能力范围。研究表明,英语学习者通常需要5-7年的时间才能达到学术英语的熟练程度,能够在学术环境中自如地运用英语进行复杂的思维和表达。在这个语言发展过程中,如果仅仅基于标准化测试的结果来评判这些学生的学术能力,很可能会严重低估他们在相关学科领域的真实掌握水平。语言障碍可能会掩盖学生在数学、科学、社会研究等学科方面的实际能力,导致对其学术潜力的错误判断。
支持策略:
不同文化背景学生测试表现对比
当学生背景使其在传统测试中处于不利地位时,应采用多元评估方式。若必须使用标准化测试,需提供充分练习机会,强调能力可通过时间和练习提升。
1. 以下哪种分数类型最适合确定学生是否掌握了特定学习目标?
A. 原始分数
B. 标准参照分数
C. 常模参照分数
D. 百分位分数
答案:B
解析: 标准参照分数通过将学生表现与预设标准比较得出,最适合判断学生是否掌握特定学习目标,直接反映教学内容掌握程度。
2. 小华在数学测试中得了85分(满分100分),这个分数属于哪种类型?
A. 标准参照分数
B. 常模参照分数
C. 原始分数
D. 标准分数
答案:C
解析: 原始分数基于学生获得的实际分数或正确回答项目的数量百分比。小华的85分是测试中的实际得分,属于原始分数。
3. 标准化成就测试主要评估什么?
A. 学生智力水平
B. 学生学习成果
C. 学生特定天赋
D. 学生学习潜力
答案:B
解析: 标准化成就测试评估学生从所学内容中的掌握程度,反映通用课程内容,用于衡量学习成果。
4. 作品集评估的主要优点是什么?
A. 评分快速便捷
B. 标准化程度高
C. 捕捉成就多面性
D. 适合大规模测试
答案:C
解析: 作品集能够捕捉学生成就的多方面性质,强调复杂技能,显示时间进程中的成长,这是单一评估无法实现的。
5. 分析案例中王老师当众宣布小雯成绩做法的不当之处,并提出改进建议。
答案:
不当之处:
(1) 侵犯学生隐私权,成绩应保密;
(2) 给学生造成心理压力和尴尬;
(3) 可能影响其他学生学习动机;
(4) 违反成绩保密原则。
改进建议:
(1) 私下讨论成绩,了解困难并提供帮助;
(2) 提前让学生了解学习进展,避免意外;
(3) 关注努力过程而非仅看结果;
(4) 为所有学生提供改进机会和指导;
(5) 建立透明评分标准,让学生提前了解要求。
6. 分析标准化测试评估多元化学生时的问题及解决策略。
答案:
主要问题:
(1) 文化偏见:测试内容偏向主流文化,对其他文化背景学生不公平;
(2) 语言障碍:非汉语母语学生语言能力影响真实学术能力展现;
(3) 测试方式不适应:某些文化背景学生不熟悉标准化测试形式;
(4) 刻板印象威胁:学生担心证实负面印象而表现失常。
解决策略:
(1) 审查测试内容,消除文化偏见;
(2) 为少数民族学生提供双语测试或翻译支持;
(3) 采用多元评估方法,如作品集、动态评估;
(4) 提供充分测试准备和练习机会;
(5) 创造支持性测试环境,减少焦虑;
(6) 解释结果时考虑学生文化和语言背景。