全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
634 0
2022-05-30
FP-Growth使用了一种特殊的分治策略,将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。

这种关联分析算法的概念由韩嘉炜等人在2000年提出,在FP-Growth算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。

FP-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成。FP-Growth算法基于以上的结构加快整个挖掘过程。

有关FP-Growth算法的知识点:

FP-Tree:将事务数据表中的各个事务数据项按照支持度排序后,把每个事务中的数据项按降序依次插入到一棵以 NULL为根结点的树中,同时在每个结点处记录该结点出现的支持度。

条件模式基:包含FP-Tree中与后缀模式一起出现的前缀路径的集合

条件树:将条件模式基按照FP-Tree的构造原则形成的一个新的FP-Tree

FP-Growth算法的基本思路:不断地迭代FP-tree的构造和投影过程

FP-Growth算法的分解:

1、对于每个频繁项,构造它的条件投影数据库和投影FP-tree。

2、对每个新构建的FP-tree重复这个过程,直到构造的新FP-tree为空,或者只包含一条路径。

3、当构造的FP-tree为空时,其前缀即为频繁模式;当只包含一条路径时,通过枚举所有可能组合并与此树的前缀连接即可得到频繁模式。

      相关帖子DA内容精选
  • 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群