用R语言做词云图首先要进行分词,R中有两个包Rwrodseg和jiebaR包可以实现分词,仔细对比两个包可以发现jieba包做的更好,功能函数要多一些。这里我们以红楼梦文本为例,进行文本分析。本文实现三个部分任务:
- Part 1:以红楼梦110回为例,做词云图;
- Part 2:统计介词和助词频率;
- Part 3:统计指定词频率。
首先,我们把红楼梦文本数据读取进入R里面,使用scan函数读取,并结合正则表达式分章节,最后用sapply函数分开文本:
接下来完成Part1部分:
效果图如下:
Part 2部分代码如下:
Part 2部分结果为(左边第一列为行序号):
Part 3部分代码如下:
结果为
以上就是一个简单的词云图例子。
R语言爱好者 大珞珞
2018年5月8日