在语言能力测试中,评分的公平性与科学性是考生最为关注的核心问题之一。思培考试(CELPIP)作为一项国际认可的英语水平测试,其评分机制备受瞩目。从阅读与听力的客观评分到口语与写作的多维度评估,思培考试如何确保每位考生的成绩真实反映其语言能力?接下来将深入解析思培考试的评分方法、流程、标准及常见问题,为你揭开这一权威考试背后的评分逻辑。
什么是思培
思培考试(又称加拿大英语语言能力测试)是加拿大移民,公民和难民部(Immigration, Refugees and Citizenship Canada)认可用于移民和公民身份的英语考试。
思培考试由Paragon Testing Enterprises研发和管理,为加拿大永久居民申请人量身打造。考试内容涵盖一系列与移民到加拿大相关的实际情景,旨在考量加拿大移民申请人在日常生活相关的场景中与他人交流能力
CELPIP阅读和听力部分的评分方法
CELPIP阅读和听力的所有题目均采用选择题或其他相似题型设计。所有阅读和听力部分的答案都采用二分法计分:答案要么正确,要么错误。未作答的题目被视为错误答案。所有评分工作均由计算机系统自动完成。
CELPIP口语和写作部分的评分方式
CELPIP-General测试的口语和写作部分由经过培训的专业评分员进行评分,这些评分员熟知一致的评分标准,基于标准评分量表对考生的表现进行评估。评分员会接受持续的培训和定期监控。Paragon公司利用评分员一致性统计指标来判断评分质量;针对某位考生,若一位评分员给出的评分与该考生其他评分员的评分足够接近(即达成共识),则认为这位评分员与其他评分员达成了一致意见。
思培考试CELPIP评分程序
所有测试均通过在线系统随机分配给评分员,始终保持考生匿名性。每位考生在各部分的任务表现(例如,考生在组件中对所有任务的回答)都将由多名评分员进行评估。每位CELPIP口语测试者的表演至少由三位口语评分员评分,而每位CELPIP写作测试者的写作至少由四位写作评分员评分。评分员相互独立工作,且不知晓其他评分员所给出的评分。
评分标准
针对写作和口语部分制定的评分维度已在本页面上方的“性能标准”部分列出:
口语:内容/连贯性、词汇、可听性和任务完成度
写作:内容/连贯性、词汇、易读性和任务完成度
每个维度都被细分为五个性能等级,并为每个等级在每个维度提供了性能描述符。评分员通过对考生表现中与评分标准匹配的具体证据进行识别,为每个维度分配一个等级。
基准评分
当对考生表现的评分完成后,会检查评分的一致性。如果评分存在分歧,系统会自动指派一名基准评分员对该表现进行评估。所有基准评分员均为经验丰富的评分员,他们在评分过程中表现出一贯的准确性和可靠性。基准评分员并不知道最初的评分结果。
最终分数如何确定?
口语和写作部分的分数来源于评分员所给予的各个维度的评分。这些分数随后会被转换成CELPIP等级。转换规则由参与标准设定练习的英语语言专家制定。标准制定是一个广泛的、以研究为基础的过程。语言专家与测试专业人员合作,确定语言学习者在每个性能等级(例如CLB 8)应具备的能力。然后,专家们对测试进行详细分析,确定应试者在每个CELPIP级别需要达到的水平。这一过程在每个口语和写作部分的分数与其相应的CELPIP级别之间建立了一种可靠的联系。
思培考试CELPIP评分常见问题
是否每位考生都是使用的同一套试卷?
出于安全考虑,存在多种不同的考试版本(测试形式)。即使在同一时间段参加考试,不同的考生也会被分配不同的测试形式。每个测试形式中会包含一些独有的题目,也可能包含与其它形式共享的一些题目。Paragon采取多套试卷的形式来管理考试,目的是最大程度降低考前有人接触到试题的风险,从而避免考生因此取得不公平或不应得的高分。
考试中有未得分的题目吗?
是的,新的题目会不断编写出来。在这些题目作为计分题目投入使用之前,会先进行预测试,以确保它们的质量与现有题目相当。Paragon会在每次测试中包含一些新编写的题目,这些题目看起来与计分题目无异,但它们并不用于计算你的最终得分。Paragon不会告诉考生哪些题目是不计分的,因为重要的是考生应对每一个题目尽全力作答。这样做可以确保收集到的新题目数据能用来评估其质量。只有表现良好的题目在未来才会被用作计分题目。
不同试卷难度是否相同?
尽管每份试卷包含不同的问题,但每份试卷都是遵循明确的内容和难度指导原则构建的。Paragon通过预测试和试卷创建流程确保了不同试卷的难度大致相同。然而,每次考试的题目并非完全相同,这意味着试卷间可能存在微小的难度差异。如果最终测试分数没有校正这些小差异,对考生而言将是不公平的。因此,通过分数等值化的过程,甚至消除了这种轻微的变异性,确保了考试公平性。
思培考试CELPIP中什么是分数等化?
等分是根据不同试卷难度的细微差别对最终分数进行修正的过程。例如,如果一名应试者在相对简单的试卷上答对了30道题,而另一名应试者在较难的试卷上答对了30道题,那么等分法就会纠正试卷难度上的差异。最重要的是,两种测试形式所报告的分数必须具有可比性。我们需要确保最终分数能够反映您的基本语言水平,而不是取决于您或其他人所回答问题的难度。
为什么思培考试CELPIP不出具原始分数?
任何测试的目标都是不论具体考试题目如何,都要为每位考生提供公正且准确的评估。虽然CELPIP测试在编制过程中遵循了内容和难度的相关指导原则,但仍然可能出现不同试卷之间难度稍有差异的情况。原始分数仅仅是考生答对题目的数量之和,它无法顾及这些细微的难度差异。因此,在不同形式的测试中,一个原始分数30分可能代表的意义并不相同。这就意味着不同考生的原始分数难以解读和比较。
为了弥补不同试卷之间的差异,Paragon将考生的原始分数转化为标准化分数。标准化分数对原始分数进行了统一调整,使得在不同形式的测试中,考生的成绩可以互相比较。
思培考试CELPIP分数等级是如何确定的?
在确定阅读和听力的标度分数后,将其转换为CELPIP级别。转换规则是由参与标准制定工作的英语专家制定的。标准设定是一个广泛的、以研究为基础的过程。语言专家与测试专业人员合作,确定语言学习者在每个成绩等级(如CLB 8)上需要具备的能力。然后,专家们对测试进行详细分析,确定应试者在每个CELPIP级别需要达到的水平。这一过程在每个阅读和听力标度分数与其相应的CELPIP级别之间建立了可靠的联系。
思培考试CELPIP阅读和听力分数的可靠性如何?
衡量测验可靠性的方法有很多。克朗巴赫α系数(Cronbach's alpha)就是一种很好的可靠性测量方法,它专门测量测验表的内部一致性。这一统计测量的结果范围为-1到+1,其中-1表示完全缺乏内部一致性,+1表示完全一致。0.80或更高的结果被认为是极好的。对于CELPIP阅读和听力部分,测试表的平均克朗巴赫α系数(Cronbach's alpha)值为0.88。这表明思培考试CELPIP阅读和听力测试表具有极好的内部一致性。
通过以上介绍,相信你已全面了解思培考试评分机制的科学性与公平性。无论是阅读、听力的客观评分,还是口语、写作的多维度评估,思培考试都以严谨的流程和高标准确保每位考生的成绩真实可靠。如果您正准备参加思培考试,或对评分机制仍有疑问,不妨进一步探索相关资源,为您的语言能力提升做好充分准备。思培考试不仅是语言能力的测试,更是迈向国际化发展的重要桥梁。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.