2019/12/10
《No.9: p76-p88》《增强型分析-AI驱动的
数据分析、业务决策与案例实践》读书笔记
第4章 序列分析
4.1 通过客户行为研究做出服务strategy
1.基于客户行为研究的结果提出服务strategy,在实践中已经取得非常显著的成果。
2.从营销角度来看,有哪些技术可以使用?
2.1 频繁项集(产品视角): 客户一起购买的产品列表为何?
2.2 关联规则(产品视角): 除了目前购买的产品外,还有哪些产品会被购买
2.3 序列模式(客户视角): 客户行为是否存在”行为顺序”
2.4 序列规则(客户视角): 客户下一布为何?
2.5 序列预测(客户视角): 客户下一布为何?
4.2 频繁项集、关联规则的挖掘
4.2.1 基本概念
1.事务与项集: 说明事务与项集的关系
2.支持度(support)
1)用来衡量”给定模式”在整个交易集中出现的次数,通常设定最小支持度来筛选模式。
2)公式: support=count(pattern)/n,其中n是事务集中事务的数量
3)置信度(Conference)
*定义: 就是条件概率,通常设定最小置信度来筛选模式。
*公式: conference=count(X U Y)/count(X)
4.2.2 频繁或稀疏项集的挖掘
1.频繁项集(Frequent Itemsets)定义: 在满足给定最小支持度的条件下,在事务集中出现的项集。
2.计算频繁项集的计算量是比较大的。
3.Apriori算法(1994年提出)
1)搜索空间时采用一些先验的原则:
a.”频繁项集的所有非空子集也必须是频繁的”
b. “非频繁项集的超集必定也是非频繁的”
2)其算法的实现过程是通过对数据集进行多次读取来完成的。
4.FP-Growth算法
透过构建频繁模式树(Frequent-Pattern tree, FP tree),的数据结构来存储相关的信息。
5.高效能(high_utility)频繁项相关算法:
1)寻找”交易金额”较大的商品。
2)算法包括,Transaction Utility、Transaction-weighted Utilization等。
4.2.3 关联规则的挖掘
1.关联规则的挖掘是基于频繁项的挖掘来完成。
2. 关联规则就是针对每个频繁项集,针对每一个子集,产生一条关联规则。需指定支持度及置信度才能生成关联规则。
3.关联规则的运用
a.推荐产品组合
b.推荐时机: 将关联规则转换为”序列信息”,序列分析非常适合用于研究营销时机的问题。