新汉语水平考试(HSK)是一项国际汉语能力标准化考试,重点考查第一语言非汉语者在生活、学习和工作中运用汉语进行交际的能力。新HSK分笔试和口试两部分,笔试和口试相互独立。笔试包括HSK(一级)、HSK(二级)、HSK(三级)、HSK(四级)、HSK(五级)和HSK(六级);口试包括HSK(初级)、HSK(中级)和HSK(高级),口试采用录音方式。
2011年,新HSK考生数达179592,其中在中国参加考试的考生数为48047,海外为131545。2012年,新HSK考生数量突破23万。
新HSK是否要建设题库?应该建设什么样的题库?在回答这两个问题前,可能需要先回答另外4个问题。第一,新HSK实施现状如何?第二,在了解新HSK实施现状的基础上,建设题库能给新HSK带来什么好处?第三,新HSK题库建设需要什么条件?第四,实现适应性考试的新HSK题库建设应该往何处去?
一、新HSK实施现状
新HSK自2009年正式推出之后,在命题、统计、施测等方面,都结合实际,采取了许多新的举措,与旧HSK相比,有了很大的变化。
1.命题质量进一步提高
近三年来,新HSK每年在全球举办8至9次考试,对试题数量的需求较大。在兼职人员命制毛坯题、专兼职人员审题、专职人员拼卷的命题机制下,新HSK常规命题工作很好地满足了考试的需求,并形成了以下一些特点。
一是命题工作常态化。目前的命题工作,基本上是当年使用的试题当年命制完成,一般有三四个月的提前量。一个有经验的命题团队,一般可以按照平均10天完成一套新HSK试卷的进度来拼制高质量试卷。这些团队基本上每个月都有命题任务,随时可以根据实际情况,增加征题量,增加人员配备,满足考试对命题的需求。新HSK兼职命题员主要是在京高校在读硕士研究生,规模一般保持在200人左右。
二是命题工作网络平台化。无论命题还是审题、拼卷等工作,都基于网络平台。过去在宾馆集中审阅纸质试题的情景不复存在,效率有了很大的提高。
三是词语控制精密化。HSK(一级)共40题,规定的150个词必须全部使用到,全卷一个超纲词都不许出现;HSK(二级)共60题,规定的300个词必须全部使用到,全卷一个超纲词都不许出现;HSK(三级)共80题,规定的600个词必须全部使用到,全卷一个超纲词都不许出现;HSK(四级)共100题,规定的1200个词必须至少“消耗”960个,全卷一个超纲词都不许出现;HSK(五级)共100题,要尽可能多地使用规定的2500词,尤其是新增的1300词,全卷超纲词控制在15%左右;HSK(六级)共101题,试题语料在词汇的使用上不受规定的5000词的限制,但考点和词语题选项中的词语应该在这5000词范围内。
四是考试质量公开化。新HSK于2009年正式推出。2010年即出版新HSK真题集6册,公布了30套正式考试使用过的试卷。2012年又出版新HSK真题集2012版7册(含口试),公布了最新使用过的45套试卷。同时还陆续公布了《新汉语水平考试(HSK)研制报告》《新汉语水平考试(HSK)质量报告》《新汉语水平考试HSK(六级)试卷难度控制研究》《新汉语水平考试HSK(五级)效度研究》《新汉语水平考试HSK(六级)平均分等值法实施方案》等。
2.不再组织考前预测
2010年起,新HSK不再组织考前预测。这样做,一方面是考虑到考前预测有其局限性及不可操作性:第一,出于保密的需要,被试的数量较少,其代表性值得怀疑;第二,被试的作答态度、参试动机与参加正式考试的考生不同,影响相关数据的准确程度;第三,因为是整套试卷预测,所以一旦曝光,损失尤其巨大;第四,专门组织预测需要投入一定的人力、财力、物力;第五,新HSK频繁地组织预测,对院校的汉语教学工作产生了较大的冲击。
另一方面,根据经验,在命题质量有保障的前提下,预测的投入产出比并不合理。每套新HSK预测卷预测后,数据显示,不可接受的劣质题(点双列相关系数在0.2以下)比例都在5%以下。这意味着,即使不预测,这些试卷也可以投入正式考试使用。对那些极少数的劣质试题,新HSK按全体考生都回答正确处理。这样处理是有代价的:一定程度上牺牲了考试的信度,本来全卷是100个题,但事实上变成了95个题。新HSK是以一定程度上信度降低的代价同不预测做了交换。实际上,这种牺牲是可以补偿的,办法就是适当增加全卷试题数量,比如将全卷定为110个题,即使去除劣质试题,仍可保持原来试题量,不影响考试信度。新HSK将来改进时,会对题量做出调整。
未经预测的新HSK试卷信度如何?以HSK(五级)、HSK(六级)为例,22套未经预测的HSK(五级)试卷正式考试Alpha系数在0.91-0.95间波动;22套未经预测的HSK(六级)试卷正式考试Alpha系数在0.90-0.94间波动。具体信息见图1、2:
预测能提供试题难度数据,以便拼卷人员拼卷时控制整卷难度。但即使没有预测,由经验丰富的拼卷人员拼制的新HSK试卷,在难度控制上也达到了较高的水准。上述22套HSK(五级)试卷正式考试全卷平均难度值,除2卷外(新加坡考生占70.4%,因此试卷难度值被高估了),都在0.64-0.75间波动;上述22套HSK(六级)试卷正式考试全卷平均难度值,除4卷外,都在0.65-0.75间波动。具体信息见图3、4:
3.试题使用一次性,试卷考后不再保密
2010年起,新HSK试卷中不再包含共同题,所有试题的使用都是一次性的。这样做,使窃题行为丧失了意义,对维护新HSK的公平性起到了积极的作用。
从2013年起,新HSK试卷考后不再保密,考后三天或一周即上网公布。新HSK在公布试卷的同时公布试卷答案。这样做,一是面对现实。因为在一些国家,考试结束当天,新HSK试题就会被一些培训机构通过不正当手段获得,全部上网,考后保密已无意义。第二,更主要的是,体现了对考生权益的尊重。
4.采用“平均分等值法”进行粗略等值
新HSK试题的使用是一次性的,“共同题等值法”不可行。“共同组等值法”则之前就因缺少可操作性,一直未能派上用场。通过研究,我们发现,新HSK可以采取“平均分等值法”来进行等值。其假设是,在每次考试有足够数量、足够代表性考生的前提下,不同次考试考生群体的汉语水平相同。基于这个假设,如果某次考试听力平均分偏高,意味着听力分测验可能偏易,需要减分;如果阅读平均分偏低,意味着阅读分测验可能偏难,需要加分。各分测验究竟加分还是减分,调整幅度多大,由工作人员参考相关数据,集体讨论确定。
在听力平均分均值线和阅读平均分均值线的确定上,“平均分等值法”有两种选择。一是将其固定,比如选择近三年来的20多次考试,获得听力、阅读平均分均值线,今后的考试围绕这两条均值线做调整。二是将其动态化,每次考试都围绕之前所有考试形成的均值线做调整。“平均分等值法”属于“共同组等值”设计,是一种粗略的等值方法,但它简便易行,可操作性强。
“试卷间等值的合适与否主要不是技术问题,其根本在于测试规范(test specifications)建立和描述、题目命制,以及试卷构建等的细致程度。”笔者赞同这样的见解。
二、建设题库能给新HSK带来什么好处
建设题库,一定有它的目的,一定是能给现有的工作带来好处。在了解了新HSK实施现状后,我们来看看题库能给新HSK带来什么好处。
有人说,有了题库,新HSK试题能被更有效地重复使用,可以缓解命题压力。这种说法一是已经丧失了现实基础,因为新HSK试题的使用是一次性的。二是如果命题有压力,应对之道应该是增加命题经费及人力投入等,扩大生产,保障供给,而非“一题二用、三用乃至4用”。
有人说,有了题库,“可以通过多媒体技术的应用而提高考试的效度。”“借助计算机的多媒体技术,可以使考试情境与现实生活更接近,可以创造出各种学习、生活、工作的场景,从而使测验达到更高的效度。”他们应该是搞错了概念,基于计算机化考试、网络化考试,这些设想即可实现,与题库没有直接关系。新HSK赞同并践行机考、网考,但笔者以为,只有到纸笔考试退出历史舞台之日,才是多媒体考试形式真正实行之时。
有人说,有了题库,才能“维护考试安全”,“由于题库可以因时生成几个平行卷,一旦泄密也可能很快补救。”实际上,将这样的功效归结于题库是不合理的。应对考前可能泄题的风险,考前多准备若干套备用试卷即可解决问题。
还有人说,有了题库,才能使“命题工作日常化”,这明显是有了先入为主的“题库”概念后,牵强得来的理由。因为没有题库,所以命题工作无法日常化,这样的因果关系,对新HSK而言,绝不成立。
甚至有人说,有了题库,就可以摆脱对某些命题权威的过度依赖。这是一种外行的、缺乏自信的、盲目推崇技术的认识。命题权威的形成,有赖其长期实践经验的积累,其经验值得尊重。如果担心因某个权威的工作或其他变动给考试带来损失,应该未雨绸缪,及早培养多个敬业、优秀的命题负责人,形成多权威局面,保证考试在某个人或几个人离去的情况下不受影响。而不是主观地杜绝权威的形成,寄希望于通过建设题库,摆脱对权威的依赖。命题工作归根结底要靠人而非机器,这是常识。
有人说,有了题库,新HSK可以自动生成试卷,可以实现适应性考试。但是,要做到这两点,需要什么条件?新HSK能否满足所需条件?
三、新HSK试卷自动生成需要什么条件
新HSK人工拼卷曾经使用8套毛坯题拼制一套正式卷,由于经费限制,后改为5套毛坯题拼制一套正式卷。需要说明的是,新HSK拼卷人员在人工拼卷时使用的试题,并没有难度、区分度数据。拼卷人员对这两个因素的考虑,体现在对全卷难度和质量的整体把握上。除难度、区分度外,拼卷人员拼卷时还要考虑题型、题材多样性、考查角度多样性和篇幅控制等。
这样人工拼制的试卷质量如何?除全卷信度、平均难度外,全卷平均区分度也是一个重要参考指标。上述22套HSK(五级)试卷正式考试全卷平均点双列相关系数,基本上在0.35-0.40间波动;上述22套HSK(六级)试卷正式考试全卷平均点双列相关系数,基本上在0.31-0.37间波动。具体信息见图5、6:
建设新HSK题库,实现试卷自动生成功能,首先,题库中要有一定数量、通过了审查、可供拼卷用的试题。这里的“一定数量”当然是多多益善,但即使只有正式卷三到五倍的试题,也可以实现试卷生成功能。因为题库中的试题是已经通过了审查、可供拼卷用的试题,三到五倍的试题应该是在15-25套甚至更多套毛坯题基础之上得来的,质量有保障,因此是可以满足拼卷需求的。其次,需要使题库系统智能化,让它可以按照拼卷人员的拼卷思路,从题库中抽取合适的试题,拼成试卷。赋予系统按题型、题材多样性、考查角度多样性和篇幅控制等因素来筛选试题、拼制试卷的智能,系统是可以比较有效地自动生成新HSK试卷“粗坯”的。拼卷人员可以在“粗坯”的基础上进行人工干预,最终形成正式用卷。
新HSK试卷自动生成功能的实现有赖于题库,这个题库有两个明显的特点:一是不需要有实测难度、区分度数据;二是对题量要求不是非常大。
目前,新HSK审题与拼卷工作是同步进行的。拼卷人员获得5套毛坯题后,随即组织人员审题。在审题的同时,就将通过审查、加工完毕的试题拼入新卷。如果发现通过了审查但与此卷已有试题内容、考点等重合的试题,会将其放至下一卷。5套毛坯题处理完后,如果合格试题仍不够拼卷用,那就组织审题人员结合已有试题的相关信息补充命题,再进行审查、拼卷,直至完成全卷。
有了题库后,审题和拼卷工作将是分开的。审题的终点是入库,而不再是拼出正式卷。拼卷时则不再是面对毛坯题,而是已经通过审查的合格试题。审题时不必再一心二用,拼卷时也不必再费心审题,工作效率都会有一定程度的提高。
HSK(五级)、HSK(六级)可以考虑尝试开发这样的题库系统,基于题库自动生成试卷“粗坯”。其他4个等级因为词语控制精密化的特点,这一功能不易实现,因此仍将按既有的模式审题、拼卷。