经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
数据分析与数据科学
›
R语言论坛
我分析了《用商业案例学R语言数据挖掘》书评,告诉你R有多火
楼主
浮世若离丶
17176
106
收藏
2018-02-08
商业智能时代已经全面到来,分析型人才的岗位数量在就业市场中呈现井喷式的增长。无论从事产品研发的工程师,还是从事产品推广的市场人员、人力资源的财务会计人员,都需要掌握数据分析技术,否则很有可能被
人工智能
时代替代。
“工欲善其事,必先利其器”。当前,R和Python等开源软件方兴未艾,但是这类软件学习曲线缓慢,使很多初学者的热情在进入
数据分析
的核心领域之前就消失殆尽。
而商业数据分析的真正目的是为了解决业务分析需求,构建稳健的
数据挖掘
模型。
因此能否以案例的形式带领我们快读进入数据分析和编程领域领域的资源显得尤为珍贵。
CDA数据分析研究院2017年出版了首本R数据挖掘教材,为了告诉你R语言和数据分析有多火,用数据说话,我爬取了京东商城《用商业案例学R语言数据挖掘》书评,来告诉你…..
从京东的1400+评论从看到,好评1400+,中评10+,差评8。好评率98%。
以下是从京东商城爬取到的部分数据,共有674条记录,存入到excel文件下。
首先,使用Rwordseg进行中文分词
我们知道,中文自然语言处理领域最基础的技术是分词。基础是因为,众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。对于中文的语言处理,首先要把词语进行切分,才能进行更深层次的语言处理。
中文分词比较有名的包非Rwordseg和jieba莫属,他们采用的算法大同小异,这里用Rwordseg来做简单演示。
1. 设置工作目录并读取数据
setwd('D:/R')
library(openxlsx)
data=read.xlsx("R.xlsx", 1,colNames = T,rowNames = F)
2. 加载所需包,这里使用Rwordseg包进行中文分词
library(rJava)
library(Rwordseg)
library(tm)
比如我们使用Rwordseg包对第一行进行分词
segmentCN(data$comment[1])
分词效果如下:
[1] "梦寐以求" "的" "有" "很多" "案例"
3. 导入搜狗词库(机器原始分词总有不如意的地方,因此需要添加词、词库来做参照)
insertWords(c("很好","不错"))##手动增加词
installDict("语文教学词库.scel", dictname ="words")
4. 对所有评论信息进行进行分词并计算各个词汇出现的频次,按照词频排序
dataseg=segmentCN(data$comment) ##对所有评论进行分词
freq = table(unlist(dataseg)) ##计算各个词汇的出现频次
freq = rev(sort(freq)) ##对词频排序
看一下前十名的有效评论:
5. 构造词汇和词频的数据框
myfile.freq=data.frame(word=names(freq),freq=as.vector(freq),stringsAsFactors = F)
myfile.freq = myfile.freq[-1,] #删除第一行
然后,我们使用Wordcloud2进行词云展示
Wordcloud2被誉为是可能是目前最好的词云解决方案,调用一个 JS 的库 (wordcloud2.js) 实现 wordcloud。有效的利用词与词的间隔来插入数据,更可以根据图片或者文字来绘制定制化的词云。
如果你没有安装过,可以执行install.packages('wordcloud2')进行简单的安装。
1. 加载包
library(wordcloud2)
2. 绘制词云图
wordcloud2(myfile.freq, size = 1, fontFamily = "微软雅黑",
color = "random-light", backgroundColor = "grey")
效果如下:
如果你想换个图形,比如想画个星星,那么
wordcloud2(myfile.freq, size = 1,shape = 'star', color = "random-light", backgroundColor = "grey")
还可以根据图片或者文字制作定制化词云,比如画个小猴子:
monkey = system.file("examples/monkey.png",package = "wordcloud2")
wordcloud2(myfile.freq, figPath = monkey, size = 1,color = "random-light", backgroundColor = "grey")
关于词云图,大小代表词汇出现的频率,所以我们可以看出,通过关键词不错、好、专业、易懂、推荐、必备、清晰等词可以看出本书的评价还是不错的,是一本值得学习的书籍。另外的一类词京东、速度、快、正版、包装等多是评论京东物流和图书质量。
后续:
本篇文章只是作为一个趣味性的了解,里面的技术细节也没有深究,比如去停用词、文本分类等。实际上文本数据作为非结构化数据而言,可以经过处理后变成结构化数据,通过数据挖掘模型发掘更有趣的知识发现。
最后打波小广告,如果你对R语言数据分析感兴趣,欢迎参加CDA-R语言专题课程,学习数据分析技能,成为优秀的R语言数据分析专家。
CDA LEVEL I业务数据分析师-R语言:
https://www.cda.cn/kecheng/43.html
CDA LEVEL II
建模分析师
-R语言:
https://www.cda.cn/kecheng/31.html
课程顾问:
陈老师
18010006628(微信)
邮箱:
chenwenjing@pinggu.org
添加课程顾问,回复
R语言
,获取课程详情及文中源代码和数据,同时获得预听课大礼包。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
auirzxp
2018-2-8 09:38:21
提示:
作者被禁止或删除 内容自动屏蔽
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
浮世若离丶
2018-2-8 09:41:12
会一点R语言,会发现生活很有趣。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
板凳
Still..
2018-2-8 09:43:26
词云的效果很有趣,想学习一下。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
报纸
壹手曹刀
2018-2-8 09:45:12
掌握数据分析技术,以防被人工智能时代替代。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
地板
军旗飞扬
2018-2-8 10:22:23
学习学习啊
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
点击查看更多内容…
7楼
lhf8059
2018-2-8 10:29:20
学习学习
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
8楼
vampire211
2018-2-8 11:02:36
谢谢分享
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
9楼
怡红公子下凡
2018-2-8 11:13:14
谢谢分享!值得学习。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
10楼
nkunku
2018-2-8 11:21:38
谢楼主,学习一下
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
11楼
nndbc
2018-2-8 11:36:39
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
12楼
tt_abc
2018-2-8 11:37:03
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
13楼
GKINGLIU
2018-2-8 11:52:59
不错不错真不错~~
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
14楼
gaoyuanbtfly
2018-2-8 11:59:12
谢谢楼主,学习了
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
15楼
finina
2018-2-8 12:59:34
想学习一下。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
16楼
f62s
2018-2-8 14:35:16
提示:
作者被禁止或删除 内容自动屏蔽
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
17楼
iiam04210817
2018-2-8 14:37:01
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
18楼
xjg
2018-2-8 15:04:47
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
19楼
shzhy1989
2018-2-8 15:05:10
学习一下
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
20楼
cxw0000
2018-2-8 15:27:20
掌握数据分析技术,以防被人工智能时代替代。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
21楼
cxw0000
2018-2-8 15:27:40
学习一下
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
22楼
warking
2018-2-8 15:45:30
谢谢分享
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
23楼
line_us
2018-2-8 16:04:32
支持分享
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
24楼
stzhao
2018-2-8 16:18:22
写的不错,赞一个
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
25楼
rossrachel
2018-2-8 16:35:22
支持一下!
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
26楼
jimmy198706
2018-2-8 17:57:55
正在自学啊,希望慢慢学会应用
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
27楼
吴都小银钩
2018-2-8 18:03:52
打算学习R语言,希望这个假期能充实一下自己
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
28楼
luosz10
2018-2-8 18:22:45
多谢分享
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
29楼
Edwardu
2018-2-8 19:06:43
学习一下
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
30楼
myjoe2011
2018-2-8 20:13:59
原来很多字词堆叠的那个图叫云图呀,看来要多逛逛咱论坛了。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
首页
上一页
下一页
跳至第
页
栏目导航
R语言论坛
经管文库(原现金交易版)
马克思主义经济学
休闲灌水
外语学习
数据交流中心
热门文章
【重磅权威】2000-2024年上市公司人力资本流 ...
中国力量席卷全球- 绿色赋能地产先行 掀起全 ...
求助英文文献一篇
中国风能太阳能资源年景公报(2025年)
几何(第五卷)[法] M. 贝尔热
《寻路集:在全球网络中寻找合适节点 》周其 ...
几何(第四卷)[法] M. 贝尔热
我该如何记住你?智能体记忆系统的演化之路
CDA数据分析脱产就业班于2026年3月7日开班! ...
表格结构数据的核心特征及具象实例解析
推荐文章
2026JG学术冬训营:从Stata初高到Python机器 ...
【必看】【本版版规,欢迎发悬赏贴求助】
26年寒假天津站|Gemini论文写作&数据分析 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群