NLTK内置了对几十个语料库和经过训练的模型的支持,如下所示。要在NLTK中使用这些,我们建议您使用NLTK语料库下载程序,
请参考每个语料库中包含的自述文件以获取更多信息。
1.perluniprops:Unicode版本7.0.0字符属性在Perl中的索引
[download|source]
编号:perluniprops;尺寸:100266;作者:;版权:;许可证:;
2.单语词对齐器(Sultan et al.2015)是释义数据库的子集。
[download|source]
id:mwa U ppdb;大小:1594711;作者:;版权:;许可证:Creative Commons Attribution 3.0 Unported(CC-BY);
3.Punkt Tokenizer模型
[download|source]
id:punkt;尺寸:13707633;作者:Jan Strunk;版权:;许可证:;
4.RSLP词干分析器(Removedor de Sufixos da Lingua Portuguesa)
[download|source]
编号:rslp;尺寸:3805;作者:Viviane Moreira Orengo(
vmorengo@inf.ufrgs.br)和克里斯蒂安·休伊克;版权:;许可证:;
5.Porter Stemmer测试文件
[download|source]
id:porterèu测试;尺寸:200510;作者:;版权:;许可证:;
6.雪球数据
[download|source]
id:snowballèu数据;大小:6785405;作者:;版权:;许可证:;
7.ACE命名实体Chunker(最大熵)
[download|source]
编号:maxent_ne_chunker;尺寸:13404747;作者:;版权:;许可证:;
8.摩西样品模型
[download|source]
编号:mosesï样品;尺寸:10961490;作者:;版权:;许可证:;
9.BLLIP解析器:WSJ模型
[download|source]
编号:bllip_wsj_no_aux;尺寸:24516205;作者:;版权:;许可证:;
10.Word2Vec示例
[download|source]
id:word2vec_样本;大小:49396025;作者:;版权:;许可证:;
11.来自WMT15的评估数据
[download|source]
id:wmt15èeval;尺寸:383096;作者:;版权:;许可证:;
12.西班牙语语法
[download|source]
id:西班牙语语法;大小:4047;作者:Kepa Sarasola;版权:;许可证:;
13.语法示例
[download|source]
id:示例语法;大小:20293;作者:;版权:;许可证:;
14.用于解析器比较的大型无上下文和基于特征的语法
[download|source]
id:大语法;大小:283747;作者:;版权:;许可证:请参阅各个语法文件;
15.NLTK书籍中的语法
[download|source]
id:book d u grammars;尺寸:9103;作者:Ewan Klein;版权:;许可证:;
16.巴斯克语法
[download|source]
id:巴斯克语法;尺寸:4704;作者:Kepa Sarasola;版权:;许可证:;
17.树库词性标记器(最大熵)
[download|source]
编号:maxent_treebank_pos_tagger;尺寸:10156853;作者:;版权:;许可证:;
18.平均感知器标记器
[download|source]
编号:perceptron tagger;尺寸:2526731;作者:;版权:;许可证:;
19.平均感知器标记器(俄语)
[download|source]
id:perceptron_tagger_ru;尺寸:8628828;作者:;版权:;许可证:;
20。映射到通用词性标记集
[download|source]
id:通用标签集;尺寸:19095;作者:;版权:;许可证:;
21.维德情感词典
[download|source]
id:vaderèu词典;大小:90486;作者:C.J.Hutto和Eric Gilbert;版权:;许可证:MIT许可证;
22.林氏依存词库
[download|source]
id:linïu词库;大小:89154019;作者:Dekang lin;版权:;许可证:经Dekang lin许可发行;
23.情绪数据集2.0版
[download|source]
id:电影评论;大小:4004848;作者:Bo Pang和Lillian Lee;版权所有:copyright(C)2004 Bo Pang和Lillian Lee;许可证:Creative Commons Attribution 4.0 International;
24.问题报告语料库
[download|source]
id:问题报告;大小:1032942;作者:Andrew Ko,卡内基梅隆大学;版权:;许可证:;
25.利弊
[download|source]
id:优缺点;尺寸:746276;作者:刘冰;版权:copyright(C)2008刘冰;许可证:Creative Commons Attribution 4.0 International;
26.MASC标记语料库
[download|source]
id:mascèU tagged;大小:1602143;作者:Nancy Ide;版权所有:copyright(C)2014 American National Corpus;许可证:此数据可用于语言教育、研究和开发,包括商业开发。;
27.句子极性数据集v1.0
[download|source]
id:句子极性;大小:490256;作者:Bo Pang和Lillian Lee;版权所有:copyright(C)2005 Bo Pang和Lillian Lee;许可证:Creative Commons Attribution 4.0 International;
28.网络文本语料库
[download|source]
id:webtext;大小:646297;作者:;版权:;许可证:;
29.NPS聊天
[download|source]
id:nps\ U chat;尺码:301366;作者:Craig Martell(邮箱:
cmartell@nps.edu);版权:;许可证:本语料库仅供非商业、非营利的教育和研究使用。它是由多部作品衍生而成的汇编作品,其版权由各自的原作者持有。;
30.城市数据库
[download|source]
id:城市数据库;大小:1708;作者:;版权:;许可证:;
原文链接:
http://www.nltk.org/nltk_data/
阅读更多精彩内弄:
CDA数据 分析师人才标准得到官方认可并公示通过!
CDA数据 分析师认证辅导课
Python学术系列丨Python文本分析学术应用
人工智能实战之文本分析