全部版块 我的主页
论坛 数据科学与人工智能 人工智能 自然语言处理
5747 17
2021-02-19
NLTK内置了对几十个语料库和经过训练的模型的支持,如下所示。要在NLTK中使用这些,我们建议您使用NLTK语料库下载程序,
复制代码
请参考每个语料库中包含的自述文件以获取更多信息。
1.perluniprops:Unicode版本7.0.0字符属性在Perl中的索引[download|source]
编号:perluniprops;尺寸:100266;作者:;版权:;许可证:;

2.单语词对齐器(Sultan et al.2015)是释义数据库的子集。 [download|source]
id:mwa U ppdb;大小:1594711;作者:;版权:;许可证:Creative Commons Attribution 3.0 Unported(CC-BY);

3.Punkt Tokenizer模型 [download|source]
id:punkt;尺寸:13707633;作者:Jan Strunk;版权:;许可证:;

4.RSLP词干分析器(Removedor de Sufixos da Lingua Portuguesa) [download|source]
编号:rslp;尺寸:3805;作者:Viviane Moreira Orengo(vmorengo@inf.ufrgs.br)和克里斯蒂安·休伊克;版权:;许可证:;

5.Porter Stemmer测试文件[download|source]
id:porterèu测试;尺寸:200510;作者:;版权:;许可证:;

6.雪球数据[download|source]
id:snowballèu数据;大小:6785405;作者:;版权:;许可证:;

7.ACE命名实体Chunker(最大熵)[download|source]
编号:maxent_ne_chunker;尺寸:13404747;作者:;版权:;许可证:;

8.摩西样品模型[download|source]
编号:mosesï样品;尺寸:10961490;作者:;版权:;许可证:;

9.BLLIP解析器:WSJ模型[download|source]
编号:bllip_wsj_no_aux;尺寸:24516205;作者:;版权:;许可证:;

10.Word2Vec示例[download|source]
id:word2vec_样本;大小:49396025;作者:;版权:;许可证:;

11.来自WMT15的评估数据[download|source]
id:wmt15èeval;尺寸:383096;作者:;版权:;许可证:;

12.西班牙语语法[download|source]
id:西班牙语语法;大小:4047;作者:Kepa Sarasola;版权:;许可证:;

13.语法示例[download|source]
id:示例语法;大小:20293;作者:;版权:;许可证:;

14.用于解析器比较的大型无上下文和基于特征的语法[download|source]
id:大语法;大小:283747;作者:;版权:;许可证:请参阅各个语法文件;

15.NLTK书籍中的语法[download|source]
id:book d u grammars;尺寸:9103;作者:Ewan Klein;版权:;许可证:;

16.巴斯克语法[download|source]
id:巴斯克语法;尺寸:4704;作者:Kepa Sarasola;版权:;许可证:;

17.树库词性标记器(最大熵)[download|source]
编号:maxent_treebank_pos_tagger;尺寸:10156853;作者:;版权:;许可证:;

18.平均感知器标记器[download|source]
编号:perceptron tagger;尺寸:2526731;作者:;版权:;许可证:;

19.平均感知器标记器(俄语)[download|source]
id:perceptron_tagger_ru;尺寸:8628828;作者:;版权:;许可证:;

20。映射到通用词性标记集 [download|source]
id:通用标签集;尺寸:19095;作者:;版权:;许可证:;


21.维德情感词典[download|source]
id:vaderèu词典;大小:90486;作者:C.J.Hutto和Eric Gilbert;版权:;许可证:MIT许可证;

22.林氏依存词库[download|source]
id:linïu词库;大小:89154019;作者:Dekang lin;版权:;许可证:经Dekang lin许可发行;

23.情绪数据集2.0版[download|source]
id:电影评论;大小:4004848;作者:Bo Pang和Lillian Lee;版权所有:copyright(C)2004 Bo Pang和Lillian Lee;许可证:Creative Commons Attribution 4.0 International;

24.问题报告语料库[download|source]
id:问题报告;大小:1032942;作者:Andrew Ko,卡内基梅隆大学;版权:;许可证:;

25.利弊[download|source]
id:优缺点;尺寸:746276;作者:刘冰;版权:copyright(C)2008刘冰;许可证:Creative Commons Attribution 4.0 International;

26.MASC标记语料库[download|source]
id:mascèU tagged;大小:1602143;作者:Nancy Ide;版权所有:copyright(C)2014 American National Corpus;许可证:此数据可用于语言教育、研究和开发,包括商业开发。;

27.句子极性数据集v1.0[download|source]
id:句子极性;大小:490256;作者:Bo Pang和Lillian Lee;版权所有:copyright(C)2005 Bo Pang和Lillian Lee;许可证:Creative Commons Attribution 4.0 International;

28.网络文本语料库[download|source]
id:webtext;大小:646297;作者:;版权:;许可证:;

29.NPS聊天[download|source]
id:nps\ U chat;尺码:301366;作者:Craig Martell(邮箱:cmartell@nps.edu);版权:;许可证:本语料库仅供非商业、非营利的教育和研究使用。它是由多部作品衍生而成的汇编作品,其版权由各自的原作者持有。;

30.城市数据库[download|source]
id:城市数据库;大小:1708;作者:;版权:;许可证:;

原文链接:http://www.nltk.org/nltk_data/
阅读更多精彩内弄:
CDA数据 分析师人才标准得到官方认可并公示通过!
CDA数据 分析师认证辅导课
Python学术系列丨Python文本分析学术应用
人工智能实战之文本分析

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2021-2-19 12:16:23
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-2-19 16:51:13
感谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-2-19 17:15:24
AIU人工智能学院 发表于 2021-2-19 11:37
NLTK内置了对几十个语料库和经过训练的模型的支持,如下所示。要在NLTK中使用这些,我们建议您使用NLTK语料 ...
感谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-2-19 17:22:08
NLTK
附件列表

ssss.pdf

大小:157.23 KB

 马上下载

NLTK

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-2-19 18:29:38
谢谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群