经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
数据分析与数据科学
›
R语言论坛
让R语言猜猜你喜欢的歌手
楼主
浮世若离丶
12114
80
收藏
2018-03-06
关联规则挖掘
是
数据挖掘
中成果颇丰而且比较活跃的研究分支。采用关联模型比较典型的案例是“尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%~40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。同样的,我们还可以根据关联规则在商品销售方面做各种促销活动。
除此以外,关联规则挖掘还经常被用于:
• 电信套餐的捆绑销售
• 歌曲推荐或者视频的“猜你喜欢”
• 电商的产品推荐
• 财务的归因分析
最近参加了一些学生的创新创业活动,令人印象深刻的是,他们的脑海中总能迸发出无穷的创意。受此启发,我想着尽快把这部分的内容整理出来,希望能够对大家在商业模式的选择上有所帮助。
先了解几个相关的概念:
• 关联(association)
:两个或多个变量的取值之间存在某种规律性。
• 关联规则(associationrule)
:指在同一个事件中出现的不同项的相关性。
• 关联分析(associationanalysis)
:用于发现隐藏在大型数据集中的令人感兴趣的联系。
• 项和事物:
令I={i1, i2, ……,id}是购物篮数据中所有项的集合,而T={t1, t2, ……,tn}是所有事务的集合。
• 项集(itemset):
包含0个或者多个项的集合被称为项集。
• 支持度计数:
即包含特定项集的事务个数。
关联规则是形如A=>B的蕴含表达式,其中A和B是不相交的项集。下面我们来看三个重要的公式:
• 支持度(support):
support(A=>B)=P(A or B)
• 置信度(confidence):
confidence(A=>B)=P(B|A)
• 提升度(lift):
lift(A=>B)=P(B|A)/P(B)
这里我们不难看出,支持度指的是两个事件同时发生的概率(实践中用频率表示),这个值如果太小,只能认为是偶尔事件,而不能认为是规则,置信度是指条件概率,表示A发生条件下B发生的强度,提升度是一个比值,用来衡量A条件的重要性。
看一个小例子:
下面是一个购物篮清单
这里TID是交易编号,不参与计算,右边ABCDEF分别表示不同的商品,下面两个规则的支持度和置信度分别为:
• A => C (50%, 66.6%)
• C =>A (50%, 100%)
关联规则挖掘的基本过程
给定事务的集合T,关联规则发现是指找出支持度大于等于minsup,并且置信度大于等于minconf的所有规则,其中minsup和minconf是对应的支持度和置信度的阈值。由于需要计算每一个可能规则的支持度和置信度,这种方法过高的代价让人望而却步。因此,我们将目标做相应转化为找出所有频繁项集,即发现满足最小支持度阈值的所有项集,这些项集称作频繁项集(frequent itemset),并进一步由频繁项集中提取所有高置信度的规则(受篇幅影响,这部分暂时省略),这些规则称作强规则(strongrule)。下面我们通过算例来实现上面的想法。
小案例:让“R语言”猜猜谁是你喜欢的歌手
这是我在概率论课上的一个案例,目的是帮助学生理解条件概率,于是让学生每人填写3个以上的华语歌手(呵呵,要是填英语歌手的话,“事物”太多,而学生有限,这样结果会不好)。于是,同学们填出来的结果是这样的:
为了计算歌手之间的相关规则,我们可以调用R语言的arules包来进行计算,代码如下:
##### code start #####
# 加载包并读入数据
# 将数据转换为arules关联规则方法apriori 可以处理的数据形式.交易数据
# 查看一下数据
# 使用apriori函数生成关联规则
####apriori函数说明
#apriori(data, parameter = NULL, appearance = NULL, control = NULL)
#data:数据
#parameter:设置参数,默认情况下parameter=list(supp=0.1,conf=0.8,maxlen=10,minlen=1,target=”rules”)
#supp: 支持度(support)
#conf: 置信度(confidence)
#maxlen,minlen: 每个项集所含项数的最大最小值
#target:“rules”或“frequent itemsets”(输出关联规则/频繁项集)
#apperence: 对先决条件X(lhs),关联结果Y(rhs)中具体包含哪些项进行限制,如:设置lhs=beer,将仅输出lhs含有beer这一项的关联规则。默认情况下,所有项都将无限制出现。
#control:控制函数性能,如可以设定对项集进行升序sort=1或降序sort=-1排序,是否向使用者报告进程(verbose=F/T)
inspect(rules.pruned)
上述代码输出如下:
结果说明:
以No1为例,弦子、张韶涵和BY2 同时被喜欢的概率为1.7%(学生人数有限的原因),喜欢弦子, 张韶涵的同学会喜欢BY2的概率为100%,该规则的提升度为56.5。因此,如果有人在音乐平台上听了弦子和张韶涵的歌,那就放心的把BY2推荐给他吧!!
值得注意的是,陈奕迅真的是万人迷,居然有9位歌手能够指向他,好吧故事结束了,你也动手试试吧!!
~BY CDA傅老师
PS: R是一种用于分析数据的领域特定语言。如果你之前未接触过专业的分析软件,那么R是不错的选择。
【好课推荐】- CDA LEVEL I业务
数据分析
师-R语言
一、课程信息
时间:2018年3月24日~4月15日
地点:北京面授&全国直播
授课安排:现场班6900元,远程班4900元
(1) 授课方式:面授直播两种形式,中文多媒体互动式授课方式
(2)授课时间:上午9:00-12:00,下午13:30-16:30,16:30-17:00(答疑)
(3)学习期限:现场与视频结合,长期学习加练习答疑。
二、课程大纲
第一阶段:数据分析概念与R编程
第二阶段:数理统计与SQL数据库
第三阶段:数理统计与数据可视化
第四阶段:统计推断与精益管理
第五阶段:市场分析方法与模式识别模型
第六阶段:客户分析方法与分类模型
第七阶段:时间序列与综合案例
第八阶段:综合案例分析
第九阶段:[线上选修]Mysql数据库基础知识(一周)
第十阶段:[线上选修]Tableau数据可视化(一周)
如果你有R语言统计分析和业务分析的基础,对R数据挖掘和模型的知识有兴趣,也欢迎报名参加R数据挖掘的课程:
https://www.cda.cn/kecheng/31.html
1级2级连报更有8折优惠!
三、报名流程
1. 在线填写报名信息
(北京&远程)
2. 给予反馈,确认报名信息
3. 网上缴费
4. 开课前一周发送电子版课件和教室路线图
四、课程讲师
杨柳
CDA数据分析研究院讲师/经济学博士
2014年8月毕业于美国纽约州立大学,现任教于南京大学商学院产业经济学系。研究方向为计量经济理论和经济预测。长期从事R语言开发及其在计量经济学中的应用研究,积累了丰富的编程经验。主持并参与多项金融和宏观经济的课题项目,对如何应用R语言进行数据分析和挖掘有深刻的认识和独到的见解。
常国珍
CDA数据分析师讲师/北京大学商学博士
曾就职于亚信科技商业运营咨询部、方正国际金融事业部、德勤管理咨询信息技术系统咨询部,多家金融信息部门和金融高科技公司数据分析顾问。主要从事征信数据集与信用风险建模、客户价值提升等项目。擅长将基于个体行为分析的微观经济学研究范式与量化模型向结合的客户终身价值建模。
五、课程优惠
1. 全日制在读学生8折优惠(需提供学生证件证明);
2. 参加过论坛其他现场班老学员9折优惠;
3. 同一单位三人及以上9折优惠,五人及以上8折优惠;
4. 同时报名参加LEVELⅠ和LEVEL Ⅱ享受8折优惠。
联系我们
课程顾问:
陈老师18010006628(微信)
邮箱:
chenwenjing@pinggu.org
附件列表
2.jpg
原图尺寸 8.76 KB
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
浮世若离丶
2018-3-6 10:25:55
R最吸引人的地方在于它的趣味性,它可以用几行简单的代码生成图表和图以及完成强大的任务功能。同时作为开源工具,目前尚无行业应用限制。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
Still..
2018-3-6 10:28:01
赞,数据挖掘很强大!
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
板凳
happy_287422301
2018-3-6 10:29:42
了不起
!
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
报纸
壹手曹刀
2018-3-6 10:29:45
我们可以根据关联规则在商品销售方面做各种促销活动。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
地板
刘彦楼
2018-3-6 14:19:16
有意思,我喜欢
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
点击查看更多内容…
7楼
1993110
2018-3-6 15:03:37
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
8楼
1993110
2018-3-6 15:04:43
这方面的技术,也可以用于学术评价,例如,对论文的评价,对学者的评价。
也可以用于,分析学者的圈子,或者裙带关系,等等。
也可以用于,市场平衡,计划经济,等等。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
9楼
Crsky7
2018-3-6 15:50:18
绝对猜不到我喜欢的歌手
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
10楼
Stakiny
2018-3-6 16:15:49
R确实比较实用!
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
11楼
军旗飞扬
2018-3-6 16:29:44
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
12楼
阿扁V5
2018-3-6 17:08:26
赞
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
13楼
shzhy1989
2018-3-6 17:45:54
围观
[victory]
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
14楼
Chemoon94
2018-3-6 18:20:03
我的天哪!好厉害!!
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
15楼
lnb1981
2018-3-6 19:53:22
R是比较好用的语言
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
16楼
Eliyou
2018-3-6 20:00:02
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
17楼
rossrachel
2018-3-6 20:17:15
学习学习!
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
18楼
judaise
2018-3-6 20:28:25
学习学习!
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
19楼
HappyAndy_Lo
2018-3-6 21:00:04
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
20楼
albertwishedu
2018-3-6 21:00:16
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
21楼
jianyu1118
2018-3-6 21:19:05
good nice!
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
22楼
nndbc
2018-3-6 21:28:05
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
23楼
Edwardu
2018-3-6 22:18:35
强大的挖掘技术
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
24楼
tjc110
2018-3-6 22:28:43
恭喜恭喜
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
25楼
tjc110
2018-3-6 22:28:59
非常好
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
26楼
tt_abc
2018-3-6 23:56:44
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
27楼
supercookie123
2018-3-7 02:23:50
謝謝分享 非常厲害
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
28楼
shifeng758
2018-3-7 02:34:35
坎坎坷坷
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
29楼
f62s
2018-3-7 02:43:20
提示:
作者被禁止或删除 内容自动屏蔽
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
30楼
auirzxp
2018-3-7 05:40:45
提示:
作者被禁止或删除 内容自动屏蔽
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
首页
上一页
下一页
跳至第
页
栏目导航
R语言论坛
真实世界经济学(含财经时事)
经管文库(原现金交易版)
休闲灌水
数据交流中心
计量经济学与统计软件
热门文章
告别熬夜头秃!3天论文特训,实现从“无从下 ...
CDA数据分析脱产就业班于2025年12月08日开班 ...
助力高阶认证备考!CDA 三级新上线第一套官 ...
《财经论丛》投稿与录用过程
全球晶圆清洗机市场调研:全球前十强生产商 ...
智能工厂发展报告(2025年)
全球改性芳香胺固化剂市场分析:前5强生产商 ...
中国财经新闻微信公众号数据
2025年度全球人工智能治理报告
全球AI应用平台市场全景图与趋势洞察报告
推荐文章
26年寒假天津站|Gemini论文写作&数据分析 ...
2026JG学术冬训营:从Stata初高到Python机器 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
几种免费下载文献的方法----我的文献应助经
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群