典型语料库介绍
摘要: 20世纪60s,Francis 和Kucera 在布朗(Brown)大学建立,是世界上第一个根据系统性原则采集样本的标准语料库,100万词规模。选自1961年美国人撰写出版的普通语体的文本,15种题材,共500个样本,每个样本不少于2000 ...
一、布朗语料库(Brown Corpus)
20世纪60s,Francis 和Kucera 在布朗(Brown)大学建立,是世界上第一个根据系统性原则采集样本的标准语料库,100万词规模
选自1961年美国人撰写出版的普通语体的文本
15种题材,共500个样本,每个样本不少于2000词
1961年布朗大学出版了当代英语词频词典
1970sGreene 和Rubin 设计了TAGGIT词性标注系统(词类标记81种,上下文约束规则3300条),自动标注正确率77%。
二、LLC口语语料库(London-LundCorpus of Spoken English )
1960s伦敦大学著名语言学家Quirk组织
2000小时的对话和广播等口语素材
瑞典隆德(Lund)大学教授Svartvik 主持录入计算机
英语口语调查(The Survey of Spoken English, SSE)
SSE于1981年完成,建成London-Lund Corpus of Spoken
English(LLC)
87个文本,每个文本约5000词,最终规模50万词
5大类:面对面交谈,电话交谈,讨论、采访、辩论,未经准备的当众评论、论证、演讲,经准备的当众演讲
标注:语调、节律、关键词(语段),词类、出现次数、搭配关系等
三、朗文语料库(Longman Corpus)
朗文语料库委员会(Longman Corpus Committee)
January1981- November 1990
设计原则:
1)尊重本族语言者的直觉和语料库权威
2)向研究人员提供语料(英国50%,美国40%,其它国家10%)
3)书面语
选自1900~的20世纪英语:知识性(informative)文本
60%,想象性(imaginative)文本40%
10个分布广泛的领域:自然和纯科学、应用科学、社会科学、世界事务等
2800万词
四、宾州(Pennsylvania)大学语料库(UPenn TreeBank) (
http://www.cis.upenn.edu/~treebank/home.html )
美国宾州大学计算机系M.Marcus 教授主持
1993年完成约300万词次英语句子的语法结构标注
2000年完成第一版中文树库,约10万词次,4185个句子
例子:原始句子:他还提出一系列具体措施的政策要点。
词性标注:他/PN 还/AD 提出/VV 一/CD 系列/M 具体
/JJ措施/NN 和/CC 政策/NN 要点/NN 。/PU
五、北京大学语料库(
http://icl.pku.edu.cn/ )
北大计算语言学研究所俞士汶教授主持,北大、富士通、人民日报社共同开发
《人民日报》1998年全部文本(约2600万字)
完整的词语切分和词性标注信息
例子:
咱们/r 中国/ns 这么/r 大/a 的/u 一个/m 多/a 民族/n 的/u 国
家/n 如果/c 不/d 团结/a ,/w 就/d 不/d 可能/v 发展/v 经济
/n ,/w 人民/n 生活/n 水平/n 也/d 就/d 不/d 可能/v 得到/v
改善/vn 和/c 提高/vn 。/w
六、台湾中研院平衡语料库
(
http://rocling.iis.sinica.edu.tw/ROCLING/corpus98/ )
台湾中央研究院平衡语料库(Sinica Corpus):世界上第一个带有完整词类标记的汉语平衡语料库
目标:500万词次汉语平衡语料库
设计思想:
1) 遵循台湾计算语言学会的分词标准
2) 采样时以自然段落为准,不看文章长度
3) 语料采用多重分类法
七、Chinese LDC
国家973 项目资助(图象、语音、自然语言理解与知识挖掘,编号:G1998030504)
语音,文字(口语,书面语)
单语:分词及词性标注语料,树库语料
双语:汉英句子对齐
规模:
汉语通用词表:8-10万词
汉语信息词典:2.5-3.0 万词
分词词性标注语料:500万字
汉语句法树库:100万字……
八、LC-STAR 项目(NLPR-Nokia)
12 国语言:加泰罗尼亚语、芬兰语、德语、希腊语、希伯来语、意大利语、汉语、俄语、西班牙语、标准阿拉伯语、土耳其语和美式英语。
目的:口语翻译
规模:文本语料不少于100M words (中文不少于2500万汉字)
领域: 新闻612万字,19%、
财经418万字,14%、
文化娱乐374万字,12%
体育829万字,27%
消费499万字,16%
个人通讯355万字,12%
共计约:3087 万字