曾经打算着,每天都要发一贴,但是昨天没有发,这两天都在学习文本分析,但是昨天学的不到位,所以没有发,今天补上了。好了,废话少说,直接来案例喽。
我用的文本是刚过去不久的十八大(shibada)六中全会全文。主要分为以下几个部分:
1、使用Rwordseg包进行分词处理 2、获取词频数据 3、使用wordcloud包做词云图 4、使用wordcloud升级版wordCloud2做词云图
(wordcloud这个函数paramater太多了,而且做出来的图比较死板,而它的升级版却很好的解决了这些问题)
好了,进行具体的操作~~~~
注:1、所用的文档见:
2、rJava、Rwordseg包的安装见https://bbs.pinggu.org/thread-4930045-1-1.html
3、其中使用的函数,如file.choose(),gsub(),unlist(),lapply()等,我会在下一个帖子中进行讲解,大家权当做会就可以了,哈哈。
词云图:
完美的分割线
下面是用wordcloud2包做的词云图:
上图:
注:图上底角出现的数字是该词的频率,是不是比wordcloud做出来的效果好多了,而且还能做出有个性的图
ok,这贴到此结束,后续自己还会坚持写的。