
张老师正在给初二学生发放刚批改完的语文测试卷,发生了这样的对话:
张老师:“批改试卷时,一些分数让我很震惊。你们看到分数后也会震惊的。有些还可以,但有些真的很糟糕,简直是灾难性的。”
学生:“[议论声渐起] 老师,我们能重新考一次吗?”
张老师:“现在把试卷发给你们。每道做错的题,今晚和明天的作业就是改正错题并交给我。这张试卷最迟周三交回,所有错题我都要看到正确答案。”
学生:“有人得满分吗?”
张老师:“没有。”
学生:“没有人得满分?[叹气声]”
张老师:“安静。这次测试中,如果分数低于75分,肯定需要加强练习。测试要有家长签名才能交回来,让家长了解学习情况。”
学生:“不要啊!”
学生:“我们必须给父母看吗?这是通过课程的要求吗?”
张老师:“如果不带签名交回来,我就给家里打电话。”
案例思考:
张老师唯一确定知道的是学生在测试中表现不佳。基于这个结果,她推断学生们没有掌握测试要评估的知识和技能——这种推断只有在测试确实能够很好地衡量学生实际学到的内容时才是合适的。当她要求学生“加强练习”并把改正错题作为家庭作业时,她把糟糕分数的责任完全推给了学生。她坚持要求家长签名,这把学生的注意力集中在表现目标而不是掌握目标上——展示能力而不是真正获得能力——并可能将学生的焦虑提升到有害程度。
课堂评估实践与课堂功能的几乎每个方面都交织在一起。它们影响着未来的规划和教学、学生的动机和情感,以及整体的课堂氛围。
评估是观察学生行为样本并对学生的知识和能力进行推断的过程。
这个定义中有三个关键要素:首先,评估涉及对行为的观察。我们不可能看到学生头脑中潜藏的知识,只能看到学生在特定情况下的表现。其次,评估通常只涉及行为样本,我们不能观察和记录每个学生在学校和家里做的每一件事。最后,评估涉及从观察到的行为中得出推论,对学生的整体成就和能力做出判断——这是一项棘手的工作。因此,选择能够合理准确估计学生知识和能力的行为至关重要。
注意这个定义不包括决策制定的内容。教育评估本身只是帮助人们对学生做出决策的工具,有时也对教师、教学计划和学校做出决策。
课堂评估在六个关键方面有所不同:
非正式评估与正式评估 非正式评估涉及对学生言行的自发、无计划观察。比如,当小明问“为什么地球另一边的人不会掉下去?”时,他暴露了对重力的误解。而正式评估则是提前计划的,用于特定目的——确定学生从地理单元中学到了什么,或者他们是否能将勾股定理应用到现实世界的几何问题中。
纸笔评估与表现评估 纸笔评估中,我们提出学生必须在纸上回答的问题——或者电子等价物,如在线测验。但我们也可能使用表现评估,学生在其中物理地展示他们的能力——在语文课上做口头报告,在音乐会上唱歌,或在化学实验室采取规定的安全预防措施。
传统评估与真实评估 从历史上看,大多数教育评估都专注于相对独立于现实世界任务来衡量知识和技能。拼写测验和数学应用题是这种传统评估的案例。然而,学生最终必须能够将他们的知识和技能转移到课堂外的复杂情况中。真实评估的概念——在现实生活环境中衡量学生的知识和技能——近年来获得了相当大的普及。
标准化测试与教师开发的评估 有时课堂评估涉及由测试构建专家开发并发布供许多不同学校和课堂使用的测试。这样的测试,通常称为标准化测试,有助于评估学生的一般成就和能力水平。但是当我们想要评估学生与特定教学目标相关的学习和成就时——学生是否掌握了长除法或能够应用他们刚刚在社会研究课上学到的内容——我们通常希望构建自己的教师开发评估。
标准参照评估与常模参照评估 一些评估,称为标准参照评估,旨在告诉我们学生相对于预定标准确切完成和未完成的内容。一个简单的案例是涵盖四年级班级本周20个拼写单词的测试:20分表示完美的试卷;15分表示15个正确拼写。
与此不同的是,常模参照评估揭示了每个学生的表现与同龄人表现的比较情况——同班同学或全国同龄人。九年级学生可能参加全国数学测试,产生百分位等级,表明每个学生与全国其他九年级学生相比表现如何。
形成性评估与总结性评估 形成性评估涉及确定学生在教学之前或期间知道和能做什么。持续的形成性评估可以帮助我们确定学生已经知道和相信什么主题,他们是否需要在特定技能上进一步练习,我们可以相应地制定或修改课程计划。
另一方面,总结性评估涉及在教学后进行评估,以对学生取得的成就做出最终决定。总结性评估用于确定学生是否掌握了课程或单元的内容,我们应该分配什么最终成绩,哪些学生有资格参加更高级的课程。
形成性评估可以帮助我们确定开始教学的合适起点,并为教学目标的适当性和教学策略有效性提供持续信息。如果发现几乎所有学生都能快速轻松地完成作业,我们可能会将短期目标设定得更高一些。或者,如果发现许多学生在仅通过口头解释呈现的重要材料上有困难,我们可能会考虑尝试不同的教学方法——更具体的、动手的方法。
在大多数情况下,我们需要使用计划的正式评估——而不是更随意的非正式评估——来确定学生是否达到了教学目标或满足了某些内容领域标准。成就的正式评估在任何掌握学习教学方法中都很重要,对于分配最终成绩也是必不可少的。
学生成就的最终衡量标准也有助于评估教学的有效性。当大多数学生在教学单元后表现不佳时——就像开头案例分析中张老师的学生一样——我们必须考虑的不仅是学生可能做得不同,还有我们作为教师可能做得不同。
为什么小李在学习阅读方面有困难?为什么小王每次分配具有挑战性的任务时都会行为不当?当我们怀疑某些学生可能与同班同学学习方式不同并可能需要特殊教育服务时,我们会问这样的问题。
每当我们进行形成性评估来帮助制定或修改课程计划时,我们显然是在使用评估来促进学生的学习。但总结性评估也可以影响学习,有几种方式:
激励学习:平均而言,当学生知道他们将接受测试或以某种其他方式对此负责时,他们学习课堂材料更多,更定期地复习,并且学得更好。
影响认知过程:不同类型的评估任务可以导致学生以截然不同的方式学习。学生通常会花更多时间学习他们认为将在评估中涉及的内容。
提供学习反馈:简单地知道测试或作业的最终分数并不是特别有用。为了促进学生的学习和成就——也为了增强学生掌握学校科目的自我效能——评估反馈必须包括学生成功的地方、遇到困难的地方以及如何改进的具体信息。
作为学习经验:一般来说,完成课堂材料评估的过程本身就有助于学生复习材料并更好地学习它。如果评估任务要求学生以新的方式详细阐述或应用材料,评估任务特别有价值。
良好的评估实践与教学密切相关:它们反映教学目标和内容领域标准,指导教学策略,并提供跟踪学生通过课程进度的手段。
毫无疑问,形成性评估——那些在教学之前或期间进行的评估——比总结性评估更有潜力促进学习和成就。通过形成性和总结性评估促进学习和成就的一些最关键策略包括:
通常,我们可以通过创建识别期望表现关键组成部分的一般评分指南来完成这些事情。在某些情况下,我们可以使用应该在学生作品中明显的特征的简单检查表。
一位四年级教师使用以下检查表来评分学生在数学应用题上的表现:
数学应用题评分检查表
当教学重点是复杂、多方面的主题或技能时,我们可能会使用评分标准——一个二维矩阵,它识别评估学生表现不同组成部分的标准,以及相对于每个组成部分的各种表现水平的具体描述。
为了最大化学习效果,我们应该提供具有以下特征的反馈:
提供尽可能详细的反馈 “你在解决这个数学问题方面做得很好。我很清楚你得出错误解决方案的唯一原因是你似乎匆忙完成了一些部分,犯了一些非常小的计算错误。”
提供实施反馈的具体建议 “你的作文很棒,但我注意到你可以在段落之间做更流畅的过渡。我建议在你完成写每个段落后,你想想下一个段落将是什么内容,然后回去重新阅读段落,确保最后一句为读者准备接下来的内容。”
关注学生随时间的进步,而不是将一个学生的表现与另一个学生进行比较 “你今天弹奏那首钢琴曲非常好。我看到你的节拍比上周有了真正的改进。”
表扬学生使用他们能控制的策略;不要因为“聪明”而表扬他们 “做得好!我看到你今天下午在图书馆为测验学习,这得到了回报,你的表现比上周的测验真的有所改进!”
反馈应该定期提供,不只是偶尔提供。当学生只在评估上得到一个分数或成绩,而没有伴随的解释说明为什么他们的表现被这样评价时,他们很可能将评价归因于他们无法控制的事情。
学生在参与评估他们的学术工作时可以受益匪浅。课堂评估通常是外在动机因素,只提供外部强加的学习学校科目的理由。然而,当学生有一定的自主感时,他们学习更有效,如果他们要成为自我调节的学习者,他们必须获得自我监控和自我评价的技能。
以下是让学生参与评估过程并帮助他们发展重要的自我监控和自我评价技能的几种策略:
由于硬件和软件的最新进展,技术现在可以使我们对学生进步和成就的持续评估变得越来越容易和有效。一些基于互联网的资源提供简短的形成性评估,我们可以通过这些评估定期监控学生在语文、数学或科学方面的进步。
一些网络程序专门设计来帮助学生评估他们书面作品的质量。这些程序对学生的电子写作文章、短篇小说和其他作品提供快速分析——学生是否使用了合理的词汇组合、适当的语法结构等等。当学生将这些程序用于形成性评估目的时,他们可以获得有助于他们提高写作质量的实质性反馈。

其他数字技术也可以增强学生的自我评估能力。班级网站或基于云的服务器提供了一个很好的机制,学生可以通过这个机制自愿上传他们工作的早期草稿,以获得同伴的建设性反馈和建议。
作为学生,你是否曾经以你认为不公平的方式被评估过?如果是这样,为什么不公平?
根据你的经验,什么特征对于良好的课堂评估工具和实践似乎是必不可少的?
这四个问题分别反映了良好课堂评估的四个RSVP特征:可靠性、标准化、有效性和实用性。这些特征对于任何评估活动都是重要考虑因素,但当我们使用总结性评估做出可能改变生活的决定时——关于最终班级成绩、高级班级安置和残疾学生适当服务的决定——它们尤其重要。
评估工具或程序的可靠性是指它产生关于被评估的知识、技能或特征的一致信息的程度。
设想你去医生办公室,因为你感觉不舒服。护士测量你的体温,读数为98.6度,说:“这看起来很好!”然后医生两分钟后进来再次测量你的体温,读数为103度;医生说:“这是高烧。我们最好弄清楚这里发生了什么。”然后护士几分钟后回来再次测量你的体温,这次你的体温是97.1度。
如果你是病人,你会有什么感觉?你的体温可能不会这么快改变,无论你有多病;那么为什么医生和护士得到这些读数?一种可能是所使用的温度计有问题;如果温度计无法提供准确的测量,那么它是不可靠的。
类似地,在教育评估中,我们希望确保评估结果基本上是相同的,无论我们是在周一还是周三进行评估,无论天气是晴朗还是下雨,或者无论我们是在好心情还是坏心情时评价学生的回答。
导致评估结果不可靠的因素包括:
学生的日常变化:健康、动机和精力水平的变化。24小时流感在学生中传播。
物理环境的变化:室温和外部干扰的变化。周一,坐在窗边的学生享受和平与安静,但周三他们在嘈杂的施工机械撕毁外面路面时写作文。
评估管理的变化:指示、时间安排和教师对学生问题回答的变化。
评估工具的特征:任务的长度、清晰度和难度(模糊和非常困难的任务增加学生随机猜测的倾向)。
评分的主观性:基于模糊、不精确标准做出的判断。
提高评估可靠性的策略:
标准化是指评估涉及类似内容和格式,并以相同方式为每个人管理和评分的程度。特别是在常模参照总结性评估中,学生应该都得到相同的指示,执行相同或类似的任务,有相同的时间限制,并在相同的约束下工作。此外,所有学生的回答都应该使用相同的标准进行评分。
标准化的重要性在于它减少了评估结果中的错误量,特别是由于测试管理变化或评分主观性而导致的错误。评估越是为所有学生标准化,其可靠性就越高。
评估工具的有效性是指它测量其意图测量的内容的程度,并允许我们对相关特征或能力得出适当推论。
考虑一个假想的“大头智力测试”:它只包括一个卷尺和一个显示各个年龄的儿童和成人通常如何在测试中表现的常模表。测试的管理快速简单。你只需测量一个人眉毛上方的头围(紧但不太紧),并将你的测量与该人年龄组的平均头围进行比较。
无论你多少次测量一个人的头围,你都会得到类似的分数:我们这些头大的人将继续是大头的,我们这些头小的人将永远是小头的。所以大头智力测试具有高可靠性,因为它产生一致的结果。但这是有效性的问题,而不是可靠性的问题。
有效性有三种类型对教育工作者特别感兴趣:
内容有效性:评估问题和任务是被评估的整体知识和技能体系的代表性样本的程度。具有高内容有效性的评估与教学目标和任何相关内容领域标准密切一致。
预测有效性:评估工具准确预测某个领域未来表现的程度。数学能力测试是否能准确预测学生在高级数学课程中的成功?
构念有效性:评估工具实际测量抽象、不可观察特征的程度。动机、自我效能和智力都是构念;我们实际上看不到这些东西中的任何一个,而必须从人们所做和不做的事情中得出关于它们的结论。
有效性是所有课堂评估中最重要的考虑因素。除非评估结果与教学目标和学术课程密切一致,否则评估结果是无意义的。
最后的RSVP特征是实用性——评估工具和程序易于使用的程度。实用性包括以下问题:
实用性和有效性、可靠性等特征之间经常存在权衡。网球的真假测试更容易构建和管理,但学生实际展示网球技能的表现评估——即使需要更多时间和精力——无疑是学生掌握比赛程度的更有效衡量。
在四个RSVP特征中,有效性是最重要的:我们必须使用有效评估教学目标和目的的学生成就的评估技术。然而,我们应该记住,可靠性是有效性的必要条件,特别是当涉及总结性评估时。标准化与总结性评估最相关,特别是常模参照评估,其中每个学生的表现与同龄人进行比较评价。实用性只有在过程中不失去有效性时才应该是考虑因素。
有效的教师定期从他们对学生行为的持续、自发观察以及学生在预先计划的纸笔和表现任务上的表现中得出推论。我们现在检查这些策略中的每一个。
从我们对学生行为的日常观察中,我们可以发现很多关于学生学到和没学到什么的信息,使我们能够对未来教学应该如何进行做出合理决定。我们可以:
非正式评估有几个优点。首先,它为我们提供当天教学任务和活动有效性的反馈。其次,它很容易在瞬间调整;当学生揭示对主题的误解时,我们可以问后续问题来探查他们的信念和推理过程。第三,非正式评估提供的信息可能支持或质疑我们从更正式评估中获得的数据。最后,对学生行为的持续观察提供影响学生课堂表现的社会、情感和动机因素的线索。
非正式评估的RSVP特征
可靠性:大多数非正式评估都很短,学生行为的这种片段并不总是他们整体成就和性格的可靠指标。当我们使用非正式评估得出学生知识和能力的结论时,我们应该将结论建立在长期的许多观察基础上。
标准化:非正式评估很少能够标准化;我们倾向于问不同学生不同的问题,我们可能会在不同的背景下观察每个学生的行为。因此,这种评估肯定不会为每个学生提供相同的信息。
有效性:即使学生的行为随时间保持一致,它也不会总是为我们提供学生知识和能力的准确数据。小明可能故意回答错误问题,这样他就不会显得像个万事通,小红可能因为慢性口吃问题而不愿说任何话。
实用性:非正式评估的最大优势是其实用性。它在事前或事后几乎不涉及我们的时间,除非我们保留观察的书面记录。它也相当灵活:我们可以随着情况变化在现场调整评估程序。
尽管非正式评估具有实用性,但我们刚刚注意到其可靠性、标准化和有效性的严重问题。因此,我们应该将得出的任何结论只视为假设,我们必须通过其他手段确认或否认这些假设。
当我们需要进行正式评估时,纸笔评估通常比表现评估更容易、更快——因此具有更大的实用性。需要简短回答的问题——如选择题和简答题——通常适合评估学生对单个、孤立事实的知识。需要扩展回答的纸笔任务——如作文题和几何证明——更容易适合评估复杂认知过程,如逻辑推理和问题解决。
识别任务与回忆任务
识别任务(选择题、真假题或匹配题)要求学生在错误陈述或无关信息的背景下识别正确答案。而回忆任务(简答题、应用题或作文任务)则要求学生自己生成正确答案。
识别项目有两个主要优点。首先,我们通常可以在单个评估中包含相对大量的问题和任务,使我们能够获得广泛内容领域的代表性样本,从而可能增加内容有效性。此外,我们可以快速一致地评分学生的回答,从而解决我们对实用性和可靠性的需求。
当我们的教学目标涉及在没有看到正确答案的情况下检索知识和技能时,特别是当我们想要检查学生的推理过程时——他们为有争议主题的特定观点辩护的能力——回忆任务通常比识别任务具有更大的有效性。
各种各样的表现任务可以用来评估学生对课堂科目的掌握。以下只是许多可能性中的几个:
表现评估特别适合评估复杂成就,如涉及同时使用多种技能的成就。它也可以在评估复杂认知过程(如问题解决、创造力和批判性思维)方面非常有帮助。此外,表现任务通常比纸笔任务更有意义、更发人深省、更真实——因此通常更有动机。
选择适当的表现任务
与任何评估一样,我们选择适当的表现评估任务必须与我们的教学目标和目的密切一致。我们还必须考虑特定任务是否能让我们对学生在相关内容领域的知识和能力做出合理的概括。
产品与过程:一些表现评估关注学生创造的有形产品——绘画或海报展示。其他的关注学生表现的特定过程和行为——做口头报告、演示如何运球篮球或演奏器乐独奏。
个人与小组表现:许多表现任务要求个别学生在很少或没有帮助的情况下完成它们。其他任务足够复杂,最好由一组学生完成。在高中社会研究中,我们可能通过使用基于实地的合作小组项目来评估学生对某些概念和技能的掌握。
限制性与扩展性表现:一些表现任务相当短;也就是说,它们涉及限制性表现。我们可能要求初级器乐班的每个学生在与我们的简短一对一会话中演奏单个大调音阶。
当我们想要确定学生在几天或几周内能够做什么时,我们评估扩展表现。扩展表现任务可能为学生提供收集数据、参与协作问题解决和编辑修改工作的机会。许多扩展表现任务体现真实评估:它们密切类似学生最终可能在外部世界遇到的情况和问题。
表现评估的RSVP特征
可靠性:研究人员报告了表现评估中不同程度的可靠性。评估结果随时间经常不一致,不同教师可能对同一表现评分不同。
标准化:一些表现评估很容易标准化,但其他的则不然。如果我们想评估学生的键盘速度和准确性,我们可以很容易地为每个人制定相同的指示、任务和时间限制。相比之下,如果我们想评估艺术创造力,我们可能想让学生选择他们使用的材料和他们创造的特定产品。
有效性:如前所述,表现评估任务有时可以提供学生相对于教学目标所完成内容的更有效指标。然而,学生对单个表现评估任务的回答通常不是他们整体成就的良好指示。
实用性:表现评估通常不如更传统的纸笔评估实用。管理评估可能相当耗时,特别是当我们必须一次观察一个学生或当他们必须执行相对复杂的任务时。
记住单个表现评估可能不是学生所取得成就的标准化或可靠指标。记住单个表现任务可能不能提供内容领域的充分代表性样本。
如我们所见,评估工具和程序的标准化对于我们评估结果的公平性、可靠性和有效性很重要。然而,标准化有一个缺点:它限制了我们适应学生不同背景和需求、利用他们个人优势并帮助他们补偿弱点领域的能力。
在课堂评估实践中,如果出于某种原因我们需要将学生的表现与其他人进行比较,标准化是必不可少的。但在许多其他情况下——当我们试图确定教学的适当起点或每个学生需要解决的具体弱点时——标准化就不那么重要了。实际上,在某些情况下,我们可能会发现评估一个学生学习的最佳方式对评估另一个学生来说是相对无效的方式。
让我们提醒自己一些常见的差异,同时记住这些只是平均差异:
所有这些因素当然可能影响学生在课堂上学习和取得成就的能力。但它们也可能影响学生在我们的非正式和正式评估中的表现,独立于他们的学习和成就。这只是我们应该考虑多种评估——以及几种不同类型的评估——来分配成绩和做出其他重要决定的许多原因之一。
此外,我们应该仔细检查我们的评估任务,以确保它们不会因为生活经验的多样性而不公平地使一些学生处于不利地位——这种不利地位被称为文化偏见或更一般地称为评估偏见。最终,我们的评估实践必须对所有群体和背景的学生公平公正。
在中国,《残疾人教育条例》等法规要求学校为有身体、心理、社会或情感残疾的学生做出适当的调整。这一要求不仅适用于教学,也适用于评估实践。因此,我们有时可能必须忽略我们对标准化的关注,以便我们能够更有效地评估某些残疾学生的知识和能力。我们可能必须为个别化教育计划(IEP)确定与同龄人不同教学目标的学生开发特定于学生的总结性评估。此外,有时我们可能必须为一些学生提供额外的时间来完成评估。
对于学习困难学生,我们需要最小化阅读要求,考虑让某人大声朗读评估项目,将复杂任务分解为更简单的组成部分,提供额外时间完成评估任务,并评估进步以及最终成就。对于注意力缺陷多动障碍学生,应使用相对简短的任务或将较长的任务分解为几个较短的任务,最小化分心刺激,如果需要还要提供额外时间。

对于视觉或听觉障碍学生,需要根据具体情况进行调整。视觉障碍学生需要使用大字体或盲文,或者让某人大声朗读评估项目;听觉障碍学生则需要使用视觉提示或手语翻译,或者让学生对项目做出书面而不是口头回答。对于身体或健康障碍学生,我们要确保学生可以物理上导航和操作任何必要的材料和设备,如果需要提供额外时间,如果学生容易疲劳还要安排频繁休息。
对于严重认知缺陷学生,应选择与学生当前能力水平和目标相匹配的任务,让任务尽可能具体和具体。这些适应措施的目标是让我们能够确定学生实际知道和能做什么,而不是给某些学生不公平的优势。
记住,适应措施的目标是让我们能够确定学生实际知道和能做什么,而不是给某些学生不公平的优势。
1. 以下哪个最准确地描述了评估的定义?
A. 评估是对学生学习成果的最终判断过程
B. 评估是观察学生行为样本并对其知识和能力进行推断的过程
C. 评估是比较学生与同龄人表现的过程
D. 评估是确定学生是否通过考试的过程
答案:B
解析: 根据文章内容,评估被定义为“观察学生行为样本并对学生的知识和能力进行推断的过程”。这个定义强调了三个关键要素:观察行为、行为样本和推断过程。选项A过于狭窄,只关注最终判断;选项C只描述了常模参照评估的一个方面;选项D过于简化了评估的复杂性。
2. 形成性评估与总结性评估的主要区别在于:
A. 形成性评估更准确,总结性评估更快速
B. 形成性评估在教学前或期间进行,总结性评估在教学后进行
C. 形成性评估使用纸笔测试,总结性评估使用表现评估
D. 形成性评估面向个人,总结性评估面向群体
答案:B
解析: 形成性评估和总结性评估的根本区别在于进行的时间和目的。形成性评估在教学之前或期间进行,目的是指导教学决策和帮助学生改进;总结性评估在教学结束后进行,目的是评判学生的最终成就。选项A、C、D都不是两者的本质区别。
3. 良好评估的RSVP特征中,哪一个被认为是最重要的?
A. 可靠性 (Reliability)
B. 标准化 (Standardization)
C. 有效性 (Validity)
D. 实用性 (Practicality)
答案:C
解析: 在RSVP四个特征中,有效性是最重要的。正如文章所述,“有效性是所有课堂评估中最重要的考虑因素。除非评估结果与教学目标和学术课程密切一致,否则评估结果是无意义的。”虽然可靠性是有效性的必要条件,但有效性仍然是核心要求。
4. 以下哪种情况最可能导致评估结果的不可靠?
A. 评估内容与教学目标不符
B. 学生在不同日子的健康状况不同
C. 评估任务过于简单
D. 评估时间过长
答案:B
解析: 可靠性指评估产生一致信息的程度。学生日常变化(如健康、动机、精力水平的变化)是导致评估结果不可靠的主要因素之一。选项A涉及的是有效性问题;选项C和D可能影响评估质量,但不是可靠性的主要威胁因素。
1. 请结合具体案例,说明课堂评估如何影响学生的学习动机和认知过程。
答案:
课堂评估对学生学习动机和认知过程有重要影响,主要体现在以下几个方面:
对学习动机的影响:
对认知过程的影响:
具体案例: 如果数学老师经常使用需要解释解题思路的开放性问题进行评估,学生就会在学习时更注重理解概念和逻辑推理,而不仅仅是记忆公式。
解析: 这道题考查学生对评估与学习关系的理解,要求结合具体案例说明评估的双重影响作用。
2. 在设计课堂评估时,教师应该如何平衡标准化与个性化的需求?请提出具体建议。
答案:
教师在设计课堂评估时需要在标准化与个性化之间找到平衡,具体建议如下:
何时强调标准化:
何时允许个性化:
平衡策略:
多元化评估组合:使用多种评估方法,既包括标准化的测试,也包括个性化的项目和作品集。
分层评估设计:为不同能力水平的学生设计不同难度的任务,但评估标准保持一致。
合理调整:为有特殊需要的学生提供必要的调整,但不改变评估的核心要求。
过程与结果并重:既评估最终成果,也关注学习过程,允许学生展示不同的学习路径。
明确评估目的:根据评估目的决定标准化程度,诊断性评估可以更个性化,选拔性评估需要更标准化。
解析: 这道题考查学生对评估设计原则的理解和应用能力,要求提出实用的平衡策略。