自从TOEFL? iBT考试在中国大陆实施以来,我就开始注意到有不正常的考试成绩存在——有些考生的某一单项成绩出奇地低,比如,三十分满分的单项成绩却最终只得了几 分,并且还是在其他科目的成绩全都超过25分的情况下。2007~2008年度,我自己的学生中就有若干起这种所谓的“托福考试成绩个位数惨案”。这两 天,天津的一位老师向我反映说他的学生中,11月底参加托福考试的学生几乎全军覆没,十几个考生在几个不同城市参加考试,结果均有“单项个位数的情况”。 11月底考,12月中旬拿到这样的成绩,对中国考生来讲无异于“晴天霹雳”正砸在自己的头上;而申请最后期限马上就要到了,可竟然是一个“死因不详”结局 ——怎一“冤”字了得!  0 `6 M3 k, A 以下是一封给ETS的公开信。请所有遭遇“托福考试成绩个位数惨案”的考生在发email向ETS申请复议的时候,附上这封公开信。这封公开信无须翻译成英文,ETS不仅看得懂,也应该看得懂,看不懂也要想办法看懂——这是他们的义务和责任 目前我已经收集了超过120例的“托福考试成绩个位数惨案”详细信息,请遭遇“托福考试成绩个位数惨案”的考生如实填写& d$ `7 B# |/ p8 `5 F; x 并提交附在本帖之后的调查表(点击这里填写 以便在未来可能的诉讼中充当证据1 \4 u% X4 e% Y* S. t 。# N; a; @3 l/ ^2 I4 l3 y
请有心的读者四处转帖本文,以便更多的“托福考试成绩个位数惨案”受害者有机会获得复议或者赔偿。# q7 \ f9 N5 e" g/ O* j
公开信开始) 给ETS的公开信' |$ k: q9 x" [ u: Q. _ ETS认为TOEFL iBT考试可以(也应该)为衡量考生的听说读写四个方面的语言使用能力提供公平、客观的成绩,为成绩使用者(如,高校的录取委员会成员)提供有效可靠的信息去作出有效的决定。
TOEFL iBT:+ j5 j3 z2 D7 m7 O9 e q" c* I0 E
- Measures the ability to communicate by combining all four language skills – Reading, Listening, Speaking, and Writing
- Is 100% academically-focused, measuring the kind of English used in academic settings
- Provides fair and objective scoring
- Provides valid and reliable information to support score users to make effective decisions
ETS知道考试成绩的可靠性是衡量一个考试质量的重要指标。可靠性之所以重要是因为它能够代表一个考试究竟能够多么一致地衡量考生的能力。考试,与 其他任何衡量活动一样,很容易受到与所衡量之能力无关之因素的影响;此类无关因素会导致最终会反过来决定考试成绩之可靠性的所谓“衡量错误”。考试成绩越 可靠,考试成绩使用者(往往指那些大学录取委员会的工作人员——他们要使用考试成绩来衡量最终录取哪些申请者。)才越有信心去用考试成绩做出与考生有关决 定。在教育衡量中,考分的可靠性被认为是一个量化及评价考试成绩究竟有多么一致的统计指标。在ETS官方的一份调查报告中,ETS声称TOEFL考试成绩 的 “Reliability Estimate”约为0.95。
An important measure of the quality of a test is how reliable the test scores are. Reliability is important because it indicates how consistently a test measures test takers’ ability. Testing, like other measurement events, is subject to the influence of many factors that are not relevant to the ability being measured. Such irrelevant factors contribute to what is called “measurement error,” which in turn determines how reliable test scores are. The more reliable the scores are, the more confidence score users have in using the scores for making important decisions about test takers. In educational measurement, score reliability is a statistical index to quantify and evaluate how consistent test scores are.
6 j# ~0 t1 N7 ?- G 目前的TOEFL iBT成绩从听说读写四个方面衡量考生的英语能力。人们公认这些能力是相互关联的;ETS的官方一份文件中也提到“在其中某一个方面(听说读写)中相当熟 练的人倾向于在其他的方面也会很熟练。在这份文件中,ETS的数据表明,听力成绩与阅读成绩之间的“关联系数”是0.69~0.71。也就是说,如果一个 考生的听力成绩是20分的话,那么,按照相关系数0.7来计算,他的阅读成绩大约应该在14~28分之间——如果1) 该考试(TOEFL)被设计得足够科学、合理、精确;2) 考试成绩没有被过分意外的情况所干扰。. {, n2 J5 D* x
The three sections of the TOEFL test (Listening, Structure/Writing, and Reading) are designed to measure different skills within the domain of English language proficiency. It is commonly recognized that these skills are interrelated; persons who are highly proficient in one area tend to be proficient in the other areas as well. If this relationship were perfect, there would be no need to report scores for each section. The scores would represent the same information repeated several times.1 `2 ~2 s3 L/ H/ x I& D- [6 N
, v! q" R0 P/ T: a' y 注意" T4 W( [. d: m( s$ k# d" @* I' @ : 这份文件说提供的数据与说明是针对纸笔版托福考试(pBT)以及计算机版托福考试(cBT)的;目前还没有找到关于网考版(iBT)的同等说明,不过,考 试设计机理应该大致相同,而改革之后的考试应该更加准确才对。所以,这份文件的数据依然应该可以用作判断托福网考版考试成绩可信度的依据。; F9 d9 \$ a: x/ N& ? ' G* H6 `; Y7 a" W& t 在ETS的一份专门的的研究报告中,研究者们对2007年1月至8月之间那些重复参加托福考试,且两次考试之间相差不到30天的考生的考试成绩进行 调查统计,最终得到的结论是这些考生的两次考试成绩之间相差无几。由此研究者认为这种两次考试成绩之间的相互关联是托福考试成绩可靠性的体现。D) o& n# }) B \+ F- ~+ u8 m
Repeater Analyses for TOEFL? iBT0 A' G: h$ {0 D4 ?1 W In this special study, the test performance of repeaters who took a second test within 30 days of having taken a first test in the period from January to August 2007 was examined and evaluated. Small changes were observed in the test scores between the repeaters' first tests and their second tests. In addition, the effect sizes of the mean score changes of the four sections and the total score were found to be small, reinforcing the fact that the mean score changes are negligible. High to moderate correlations between the two test scores indicated a high degree of consistency in repeaters’ rank orders of their scores. In the context of the data used in the study, the correlations are reflective of the test-retest reliability of alternate forms except that the data were not collected from a controlled design.8 Y4 j- {4 v/ K# R' }& G! ]
可是,从2006年开始在中国大陆举行的托福网考(TOEFL iBT,也被称为新托福)考试成绩却似乎并没有ETS自己认为的那么可靠。自从新托福考试在中国大陆地区开考以来,频繁出现所谓的“托福成绩个位数惨案 ”。即,很多考生在听说读写四个单项成绩中竟然有一项或者两项的成绩仅为个位数(各项满分为30分),比如,7分、6分,甚至更低;而与此同时,这些考生 的另外几项的成绩却可能都在20分以上。这样的成绩显然是不正常的,因为两个科目之间的相关系数远远低于ETS声称的0.69~0.71这个区间 (TOEFL iBT Score Reliability Generalizability)。% a. [* s' D x/ g* x" `- T7 F ' ~! o2 P( J) r& l" {: m) x 这样的成绩不合理的另外一个证据是,很多学生在某项单科获得“个位数成绩”之后,往往选择马上重考而非申请复议——因为对中国学生来讲,申请过程相 当繁杂,且时间限制非常紧迫。这些学生为了能够在最后期限之前寄出达到要求的成绩,只能选择马上重考,而不是耗费大量时间精力与位于海外的ETS考试中心 联系申请复议。因此,他们第二次考试与第一次考试之间往往没有超过30天。可是,在第二次的考试成绩中,上次获得个位数成绩的那个科目往往会出现10分或 者更多的提高。如若ETS的研究报告(Repeater Analyses for TOEFL? iBT)是正确的,那么就不应该出现三十天内的两次成绩如此相去甚远的情况。; d1 `0 \2 `7 R6 H8 M- V& R' K, V ! T% y7 Y* [+ N" ] 我个人的猜想是ETS并非故意,大抵上应该是因为网络数据传输过程中出现了差错。过去的纸笔版考试中,少数考生可能因为涂答题卡时“涂串行”了而导 致极低的成绩——那个时候很多考生是现在试卷上选择标记而后集中涂卡。但是,现在的网考是基本上是答一道题提交一次答案,不可能出现“批量出错”的可能 性。我个人认为,如果最终证明“个位数惨案”的责任不在考生身上(那么就一定是在ETS身上,至于ETS哪儿错了,我们无需指正;考生对“ETS无责任” 没有“举证责任”,相反,ETS必须对“责任并不在ETS”举证),那么ETS就应该退费给那些“个位数惨案”的受害者。尽管,中国考生至今尚无提出“赔 偿”要求,并且为了求学而不得不承担更多的考试费用。 ETS的TOEFL考试是一种收费服务,原本服务出了问题就应该退费,而后还可能需要补偿——很多考生可能会因此错过出国留学的机会,而这甚至可能 对他们的一生产生重大的负面影响。然而,现在的ETS对中国大陆地区考生所获得的“反常”成绩置若罔闻。很少有考生公开报告自己的“个位数成绩”最终获得 了纠正。基于种种原因,中国考生并没有恰当的途径以及足够的法律援助来起诉ETS,用法律手段捍卫自己的权利。这封公开信的目的并不在于“起诉ETS”,而在于敦促ETS尽快正视这种反常现象,及早拿出相应的解决方案。0 Z% I7 S7 C7 J9 [ 中 国考生已经相当宽容、质朴,几乎每个受害考生第一个想到的都不是“起诉ETS”,而是先沮丧不已,再后申诉未果,最后再缴纳1370元人民币重新参加一次 托福考试。我提议ETS就算不退费给“个位数惨案”的受害者,也起码应该“尽快为该考生免费安排一次托福考试”。这种“退而求其次” 的要求,是ETS必须认真考虑的。3 X) w; [3 E2 M7 M; J9 v1 `9 m1 g
(公开信结束)5 ~/ B9 ]( k( N# m5 P* k ETS投诉信箱' d p* ^+ j2 `% y. f4 }( ?
|