全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 python论坛
2139 4
2018-02-02



以下内容转自 数析学院,只节选了部分,有需要的同学可以直接查看原文


学习完本节课程,你将学会如何将任意中文文本生成词云。


工具库与语料准备


首先,我们需要导入所需的工具库,并对jupyter notebook进行简单的设置:



复制代码
接着,导入我们所用的语料集——1141条来自豆瓣网的《至爱梵高》影评
复制代码
复制代码
1141
我们的原始语料集数据如下所示:
复制代码
QQ截图20180202110055.jpg
上面的数据集包含了《至爱梵高》影评的诸多信息,下面我们将以影评内容( content 列)为分词与词云绘制的重点对象。
中文分词在知道了语料集的基本情况之后,运用 jieba 库中的相关工具,我们先来建立一个最简单的中文分词函数:
复制代码
复制代码
Building prefix dict from the default dictionary ...Loading model from cache /tmp/jieba.cacheLoading model cost 0.473 seconds.Prefix dict has been built succesfully.
用一个简单的句子试一下这个函数的效果:
复制代码
数析学院很适合初学者入门,课程资源也挺丰富的,坚持下去应该收获不小。
以上内容转自 数析学院,如需完整内容可以直接查看原文
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-2-2 11:06:14
66666666
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-2-2 14:23:14
支持分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-2-7 13:44:10
感谢楼主分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-2-10 00:15:55
感谢分享!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群