Chapter 12 语料库语言学与英语词汇研究
高敏201612082011142
12.2 语料库与词频统计
计算机生成语料库可输出的资料中重要的一项就是词汇频率表(word frequency list)。 词频表是指对语料库中的词汇使用频率进行列表,以确定语料库中哪些词汇和词块是常用的,而另外哪些词汇和词块是相对比较少用的。 Wordsmith Tools和AntConc都具有生成单词词表和词块词表的功能。
例如,Cambridge International Corpus (CIC)剑桥国际语料库是一个收词量超过10亿的大型数据库,收集了多种权威口语和书面语语料资源。以33万个单词为基础生成的最常用50个词汇。
附件列表