三分钟学会 Python 中文分词与词云绘制——以豆瓣《至爱梵高》影评为例

casey_c

2200

收藏 2018-02-02

以下内容转自数析学院，只节选了部分，有需要的同学可以直接查看原文

学习完本节课程，你将学会如何将任意中文文本生成词云。

工具库与语料准备

首先，我们需要导入所需的工具库，并对jupyter notebook进行简单的设置：

复制代码

接着，导入我们所用的语料集——1141条来自豆瓣网的《至爱梵高》影评

复制代码

1141
我们的原始语料集数据如下所示：

复制代码

上面的数据集包含了《至爱梵高》影评的诸多信息，下面我们将以影评内容（ content 列）为分词与词云绘制的重点对象。
中文分词在知道了语料集的基本情况之后，运用 jieba 库中的相关工具，我们先来建立一个最简单的中文分词函数：

复制代码

Building prefix dict from the default dictionary ...Loading model from cache /tmp/jieba.cacheLoading model cost 0.473 seconds.Prefix dict has been built succesfully.
用一个简单的句子试一下这个函数的效果：

复制代码

数析学院很适合初学者入门，课程资源也挺丰富的，坚持下去应该收获不小。
以上内容转自数析学院，如需完整内容可以直接查看原文

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

rzxw03

2018-2-2 11:06:14

66666666

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

line_us

2018-2-2 14:23:14

支持分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

luling2010

2018-2-7 13:44:10

感谢楼主分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

shiningwt

2018-2-10 00:15:55

感谢分享！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群