新汉语水平考试（HSK）题库建设之我见

3216

收藏 2014-02-27

新汉语水平考试（HSK）是一项国际汉语能力标准化考试，重点考查第一语言非汉语者在生活、学习和工作中运用汉语进行交际的能力。新HSK分笔试和口试两部分，笔试和口试相互独立。笔试包括HSK（一级）、HSK（二级）、HSK（三级）、HSK（四级）、HSK（五级）和HSK（六级）；口试包括HSK（初级）、HSK（中级）和HSK（高级），口试采用录音方式。

2011年，新HSK考生数达179592，其中在中国参加考试的考生数为48047，海外为131545。2012年，新HSK考生数量突破23万。

新HSK是否要建设题库？应该建设什么样的题库？在回答这两个问题前，可能需要先回答另外4个问题。第一，新HSK实施现状如何？第二，在了解新HSK实施现状的基础上，建设题库能给新HSK带来什么好处？第三，新HSK题库建设需要什么条件？第四，实现适应性考试的新HSK题库建设应该往何处去？

一、新HSK实施现状

新HSK自2009年正式推出之后，在命题、统计、施测等方面，都结合实际，采取了许多新的举措，与旧HSK相比，有了很大的变化。

1．命题质量进一步提高

近三年来，新HSK每年在全球举办8至9次考试，对试题数量的需求较大。在兼职人员命制毛坯题、专兼职人员审题、专职人员拼卷的命题机制下，新HSK常规命题工作很好地满足了考试的需求，并形成了以下一些特点。

一是命题工作常态化。目前的命题工作，基本上是当年使用的试题当年命制完成，一般有三四个月的提前量。一个有经验的命题团队，一般可以按照平均10天完成一套新HSK试卷的进度来拼制高质量试卷。这些团队基本上每个月都有命题任务，随时可以根据实际情况，增加征题量，增加人员配备，满足考试对命题的需求。新HSK兼职命题员主要是在京高校在读硕士研究生，规模一般保持在200人左右。

二是命题工作网络平台化。无论命题还是审题、拼卷等工作，都基于网络平台。过去在宾馆集中审阅纸质试题的情景不复存在，效率有了很大的提高。

三是词语控制精密化。HSK（一级）共40题，规定的150个词必须全部使用到，全卷一个超纲词都不许出现；HSK（二级）共60题，规定的300个词必须全部使用到，全卷一个超纲词都不许出现；HSK（三级）共80题，规定的600个词必须全部使用到，全卷一个超纲词都不许出现；HSK（四级）共100题，规定的1200个词必须至少“消耗”960个，全卷一个超纲词都不许出现；HSK（五级）共100题，要尽可能多地使用规定的2500词，尤其是新增的1300词，全卷超纲词控制在15%左右；HSK（六级）共101题，试题语料在词汇的使用上不受规定的5000词的限制，但考点和词语题选项中的词语应该在这5000词范围内。

四是考试质量公开化。新HSK于2009年正式推出。2010年即出版新HSK真题集6册，公布了30套正式考试使用过的试卷。2012年又出版新HSK真题集2012版7册（含口试），公布了最新使用过的45套试卷。同时还陆续公布了《新汉语水平考试（HSK）研制报告》《新汉语水平考试（HSK）质量报告》《新汉语水平考试HSK（六级）试卷难度控制研究》《新汉语水平考试HSK（五级）效度研究》《新汉语水平考试HSK（六级）平均分等值法实施方案》等。

2．不再组织考前预测

2010年起，新HSK不再组织考前预测。这样做，一方面是考虑到考前预测有其局限性及不可操作性：第一，出于保密的需要，被试的数量较少，其代表性值得怀疑；第二，被试的作答态度、参试动机与参加正式考试的考生不同，影响相关数据的准确程度；第三，因为是整套试卷预测，所以一旦曝光，损失尤其巨大；第四，专门组织预测需要投入一定的人力、财力、物力；第五，新HSK频繁地组织预测，对院校的汉语教学工作产生了较大的冲击。

另一方面，根据经验，在命题质量有保障的前提下，预测的投入产出比并不合理。每套新HSK预测卷预测后，数据显示，不可接受的劣质题（点双列相关系数在0.2以下）比例都在5%以下。这意味着，即使不预测，这些试卷也可以投入正式考试使用。对那些极少数的劣质试题，新HSK按全体考生都回答正确处理。这样处理是有代价的：一定程度上牺牲了考试的信度，本来全卷是100个题，但事实上变成了95个题。新HSK是以一定程度上信度降低的代价同不预测做了交换。实际上，这种牺牲是可以补偿的，办法就是适当增加全卷试题数量，比如将全卷定为110个题，即使去除劣质试题，仍可保持原来试题量，不影响考试信度。新HSK将来改进时，会对题量做出调整。

未经预测的新HSK试卷信度如何？以HSK（五级）、HSK（六级）为例，22套未经预测的HSK（五级）试卷正式考试Alpha系数在0.91-0.95间波动；22套未经预测的HSK（六级）试卷正式考试Alpha系数在0.90-0.94间波动。具体信息见图1、2：

预测能提供试题难度数据，以便拼卷人员拼卷时控制整卷难度。但即使没有预测，由经验丰富的拼卷人员拼制的新HSK试卷，在难度控制上也达到了较高的水准。上述22套HSK（五级）试卷正式考试全卷平均难度值，除2卷外（新加坡考生占70.4%，因此试卷难度值被高估了），都在0.64-0.75间波动；上述22套HSK（六级）试卷正式考试全卷平均难度值，除4卷外，都在0.65-0.75间波动。具体信息见图3、4：

3．试题使用一次性，试卷考后不再保密

2010年起，新HSK试卷中不再包含共同题，所有试题的使用都是一次性的。这样做，使窃题行为丧失了意义，对维护新HSK的公平性起到了积极的作用。

从2013年起，新HSK试卷考后不再保密，考后三天或一周即上网公布。新HSK在公布试卷的同时公布试卷答案。这样做，一是面对现实。因为在一些国家，考试结束当天，新HSK试题就会被一些培训机构通过不正当手段获得，全部上网，考后保密已无意义。第二，更主要的是，体现了对考生权益的尊重。

4．采用“平均分等值法”进行粗略等值

新HSK试题的使用是一次性的，“共同题等值法”不可行。“共同组等值法”则之前就因缺少可操作性，一直未能派上用场。通过研究，我们发现，新HSK可以采取“平均分等值法”来进行等值。其假设是，在每次考试有足够数量、足够代表性考生的前提下，不同次考试考生群体的汉语水平相同。基于这个假设，如果某次考试听力平均分偏高，意味着听力分测验可能偏易，需要减分；如果阅读平均分偏低，意味着阅读分测验可能偏难，需要加分。各分测验究竟加分还是减分，调整幅度多大，由工作人员参考相关数据，集体讨论确定。

在听力平均分均值线和阅读平均分均值线的确定上，“平均分等值法”有两种选择。一是将其固定，比如选择近三年来的20多次考试，获得听力、阅读平均分均值线，今后的考试围绕这两条均值线做调整。二是将其动态化，每次考试都围绕之前所有考试形成的均值线做调整。“平均分等值法”属于“共同组等值”设计，是一种粗略的等值方法，但它简便易行，可操作性强。

“试卷间等值的合适与否主要不是技术问题，其根本在于测试规范（test specifications）建立和描述、题目命制，以及试卷构建等的细致程度。”笔者赞同这样的见解。

二、建设题库能给新HSK带来什么好处

建设题库，一定有它的目的，一定是能给现有的工作带来好处。在了解了新HSK实施现状后，我们来看看题库能给新HSK带来什么好处。

有人说，有了题库，新HSK试题能被更有效地重复使用，可以缓解命题压力。这种说法一是已经丧失了现实基础，因为新HSK试题的使用是一次性的。二是如果命题有压力，应对之道应该是增加命题经费及人力投入等，扩大生产，保障供给，而非“一题二用、三用乃至4用”。

有人说，有了题库，“可以通过多媒体技术的应用而提高考试的效度。”“借助计算机的多媒体技术，可以使考试情境与现实生活更接近，可以创造出各种学习、生活、工作的场景，从而使测验达到更高的效度。”他们应该是搞错了概念，基于计算机化考试、网络化考试，这些设想即可实现，与题库没有直接关系。新HSK赞同并践行机考、网考，但笔者以为，只有到纸笔考试退出历史舞台之日，才是多媒体考试形式真正实行之时。

有人说，有了题库，才能“维护考试安全”，“由于题库可以因时生成几个平行卷，一旦泄密也可能很快补救。”实际上，将这样的功效归结于题库是不合理的。应对考前可能泄题的风险，考前多准备若干套备用试卷即可解决问题。

还有人说，有了题库，才能使“命题工作日常化”，这明显是有了先入为主的“题库”概念后，牵强得来的理由。因为没有题库，所以命题工作无法日常化，这样的因果关系，对新HSK而言，绝不成立。

甚至有人说，有了题库，就可以摆脱对某些命题权威的过度依赖。这是一种外行的、缺乏自信的、盲目推崇技术的认识。命题权威的形成，有赖其长期实践经验的积累，其经验值得尊重。如果担心因某个权威的工作或其他变动给考试带来损失，应该未雨绸缪，及早培养多个敬业、优秀的命题负责人，形成多权威局面，保证考试在某个人或几个人离去的情况下不受影响。而不是主观地杜绝权威的形成，寄希望于通过建设题库，摆脱对权威的依赖。命题工作归根结底要靠人而非机器，这是常识。

有人说，有了题库，新HSK可以自动生成试卷，可以实现适应性考试。但是，要做到这两点，需要什么条件？新HSK能否满足所需条件？

三、新HSK试卷自动生成需要什么条件

新HSK人工拼卷曾经使用8套毛坯题拼制一套正式卷，由于经费限制，后改为5套毛坯题拼制一套正式卷。需要说明的是，新HSK拼卷人员在人工拼卷时使用的试题，并没有难度、区分度数据。拼卷人员对这两个因素的考虑，体现在对全卷难度和质量的整体把握上。除难度、区分度外，拼卷人员拼卷时还要考虑题型、题材多样性、考查角度多样性和篇幅控制等。

这样人工拼制的试卷质量如何？除全卷信度、平均难度外，全卷平均区分度也是一个重要参考指标。上述22套HSK（五级）试卷正式考试全卷平均点双列相关系数，基本上在0.35-0.40间波动；上述22套HSK（六级）试卷正式考试全卷平均点双列相关系数，基本上在0.31-0.37间波动。具体信息见图5、6：

建设新HSK题库，实现试卷自动生成功能，首先，题库中要有一定数量、通过了审查、可供拼卷用的试题。这里的“一定数量”当然是多多益善，但即使只有正式卷三到五倍的试题，也可以实现试卷生成功能。因为题库中的试题是已经通过了审查、可供拼卷用的试题，三到五倍的试题应该是在15-25套甚至更多套毛坯题基础之上得来的，质量有保障，因此是可以满足拼卷需求的。其次，需要使题库系统智能化，让它可以按照拼卷人员的拼卷思路，从题库中抽取合适的试题，拼成试卷。赋予系统按题型、题材多样性、考查角度多样性和篇幅控制等因素来筛选试题、拼制试卷的智能，系统是可以比较有效地自动生成新HSK试卷“粗坯”的。拼卷人员可以在“粗坯”的基础上进行人工干预，最终形成正式用卷。

新HSK试卷自动生成功能的实现有赖于题库，这个题库有两个明显的特点：一是不需要有实测难度、区分度数据；二是对题量要求不是非常大。

目前，新HSK审题与拼卷工作是同步进行的。拼卷人员获得5套毛坯题后，随即组织人员审题。在审题的同时，就将通过审查、加工完毕的试题拼入新卷。如果发现通过了审查但与此卷已有试题内容、考点等重合的试题，会将其放至下一卷。5套毛坯题处理完后，如果合格试题仍不够拼卷用，那就组织审题人员结合已有试题的相关信息补充命题，再进行审查、拼卷，直至完成全卷。

有了题库后，审题和拼卷工作将是分开的。审题的终点是入库，而不再是拼出正式卷。拼卷时则不再是面对毛坯题，而是已经通过审查的合格试题。审题时不必再一心二用，拼卷时也不必再费心审题，工作效率都会有一定程度的提高。

HSK（五级）、HSK（六级）可以考虑尝试开发这样的题库系统，基于题库自动生成试卷“粗坯”。其他4个等级因为词语控制精密化的特点，这一功能不易实现，因此仍将按既有的模式审题、拼卷。