以下内容转自 数析学院,只节选了部分,有需要的同学可以直接查看原文
学习完本节课程,你将学会如何将任意中文文本生成词云。
工具库与语料准备
首先,我们需要导入所需的工具库,并对jupyter notebook进行简单的设置:
接着,导入我们所用的语料集——1141条来自豆瓣网的《至爱梵高》影评
1141
我们的原始语料集数据如下所示:
上面的数据集包含了《至爱梵高》影评的诸多信息,下面我们将以影评内容( content 列)为分词与词云绘制的重点对象。
中文分词在知道了语料集的基本情况之后,运用 jieba 库中的相关工具,我们先来建立一个最简单的中文分词函数:
Building prefix dict from the default dictionary ...Loading model from cache /tmp/jieba.cacheLoading model cost 0.473 seconds.Prefix dict has been built succesfully.
用一个简单的句子试一下这个函数的效果:
数析学院很适合初学者入门,课程资源也挺丰富的,坚持下去应该收获不小。
以上内容转自 数析学院,如需完整内容可以直接查看原文