全部版块 我的主页
论坛 数据科学与人工智能 人工智能
6424 0
2016-06-10
典型语料库介绍
摘要: 20世纪60s,Francis 和Kucera 在布朗(Brown)大学建立,是世界上第一个根据系统性原则采集样本的标准语料库,100万词规模。选自1961年美国人撰写出版的普通语体的文本,15种题材,共500个样本,每个样本不少于2000 ...
一、布朗语料库(Brown Corpus)
20世纪60s,Francis 和Kucera 在布朗(Brown)大学建立,是世界上第一个根据系统性原则采集样本的标准语料库,100万词规模

选自1961年美国人撰写出版的普通语体的文本

15种题材,共500个样本,每个样本不少于2000词

1961年布朗大学出版了当代英语词频词典

1970sGreene 和Rubin 设计了TAGGIT词性标注系统(词类标记81种,上下文约束规则3300条),自动标注正确率77%。

二、LLC口语语料库(London-LundCorpus of Spoken English )
1960s伦敦大学著名语言学家Quirk组织

2000小时的对话和广播等口语素材

瑞典隆德(Lund)大学教授Svartvik 主持录入计算机

英语口语调查(The Survey of Spoken English, SSE)

SSE于1981年完成,建成London-Lund Corpus of Spoken
English(LLC)

87个文本,每个文本约5000词,最终规模50万词

5大类:面对面交谈,电话交谈,讨论、采访、辩论,未经准备的当众评论、论证、演讲,经准备的当众演讲

标注:语调、节律、关键词(语段),词类、出现次数、搭配关系等

三、朗文语料库(Longman Corpus)
朗文语料库委员会(Longman Corpus Committee)

January1981- November 1990

设计原则:
1)尊重本族语言者的直觉和语料库权威

2)向研究人员提供语料(英国50%,美国40%,其它国家10%)

3)书面语
选自1900~的20世纪英语:知识性(informative)文本
60%,想象性(imaginative)文本40%

10个分布广泛的领域:自然和纯科学、应用科学、社会科学、世界事务等

2800万词

四、宾州(Pennsylvania)大学语料库(UPenn TreeBank) (http://www.cis.upenn.edu/~treebank/home.html )

美国宾州大学计算机系M.Marcus 教授主持

1993年完成约300万词次英语句子的语法结构标注

2000年完成第一版中文树库,约10万词次,4185个句子
例子:原始句子:他还提出一系列具体措施的政策要点。
词性标注:他/PN 还/AD 提出/VV 一/CD 系列/M 具体
/JJ措施/NN 和/CC 政策/NN 要点/NN 。/PU


五、北京大学语料库(http://icl.pku.edu.cn/ )
北大计算语言学研究所俞士汶教授主持,北大、富士通、人民日报社共同开发

《人民日报》1998年全部文本(约2600万字)

完整的词语切分和词性标注信息

例子:
咱们/r 中国/ns 这么/r 大/a 的/u 一个/m 多/a 民族/n 的/u 国
家/n 如果/c 不/d 团结/a ,/w 就/d 不/d 可能/v 发展/v 经济
/n ,/w 人民/n 生活/n 水平/n 也/d 就/d 不/d 可能/v 得到/v
改善/vn 和/c 提高/vn 。/w

六、台湾中研院平衡语料库
(http://rocling.iis.sinica.edu.tw/ROCLING/corpus98/ )

台湾中央研究院平衡语料库(Sinica Corpus):世界上第一个带有完整词类标记的汉语平衡语料库

目标:500万词次汉语平衡语料库

设计思想:
1) 遵循台湾计算语言学会的分词标准
2) 采样时以自然段落为准,不看文章长度
3) 语料采用多重分类法

七、Chinese LDC
国家973 项目资助(图象、语音、自然语言理解与知识挖掘,编号:G1998030504)

语音,文字(口语,书面语)

单语:分词及词性标注语料,树库语料

双语:汉英句子对齐

规模:
汉语通用词表:8-10万词
汉语信息词典:2.5-3.0 万词
分词词性标注语料:500万字
汉语句法树库:100万字……

八、LC-STAR 项目(NLPR-Nokia)
12 国语言:加泰罗尼亚语、芬兰语、德语、希腊语、希伯来语、意大利语、汉语、俄语、西班牙语、标准阿拉伯语、土耳其语和美式英语。

目的:口语翻译

规模:文本语料不少于100M words (中文不少于2500万汉字)
  
领域: 新闻612万字,19%、
财经418万字,14%、
文化娱乐374万字,12%
体育829万字,27%
消费499万字,16%
个人通讯355万字,12%
共计约:3087 万字

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群