版主的《数据挖掘与商业案例》的字符变量压缩 - 经管之家

› 论坛 › 数据科学与人工智能 › 数据分析与数据科学 › SAS专版

版主的《数据挖掘与商业案例》的字符变量压缩

2258

5

收藏 2012-05-13

我看到第14章 14.2.7 节关于字符变量压缩的章节。
有两个问题：

1. 我算出来的log p value 最小的聚类数是5，而书上是3. 是不是也有人和我一样？还是我哪里算错了？

2. 按我的理解，这部分code的逻辑是，先算出location*redm_flag的列联表的卡方值_Pchi_。然后以location变量每一类别的均值为目标做聚类分析，并且算出每一类别下面的Rsquared值。最后设定变量Chisquare=_Pchi_*Rsqured, 然后假设该变量服从卡方分布，算出该变量的p值，最后取具有最小的p值的聚类数。我想请教下这里是怎么体现“使聚类后的类别之内相对于预测变量的离差平方和最小，而类别之间达到最大呢”？也就是说，为啥要构建变量Chisquare呢？
本人非统计学专业，不是很懂，望有高人赐教。

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2012-5-17 10:38:11

这个其实和列联表分析的原理是一致的，先对原始的n组做卡方检验，可以得到一个P值（p1），然后将n组内的其中的两组合并，然后对n-1组进行相关的卡方检验，求得新的p值（p2），若p2<p1，那么就是说合并后的n-1组的差异更显著

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2012-5-17 16:36:32

小春1988 发表于 2012-5-17 10:38
这个其实和列联表分析的原理是一致的，先对原始的n组做卡方检验，可以得到一个P值（p1），然后将n组内的其中 ...

非常感谢。按我的理解，在这里，如果特定分组数的组内方差越小，那么聚类分析的Rsquared值越大，所以要构建统计量_Pchi_*Rsquared，当这个统计量显著地区别于0的时候，说明代表组间方差的_Pchi_和代表组内方差的（反比）的Rsquard都比较大，即组间方差最大和组内方差最小？

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2012-5-17 21:53:23

你好，我之前也研究过那个建模过程，我在最后得到的分组(变量组合)上有些出入，希望我们可以互相交流一下，不知你是否愿意。qq:379542114

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2018-1-10 17:21:41

我算出来是4嘛，还有人在看这本书吗，求沟通

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2018-1-11 10:30:56

发现了一个错误，原书在代码编写时，B7写重了，并且原始数据中有19个变量

二维码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

相关推荐

栏目导航

热门文章

推荐文章

扫码加好友，拉您进群

各岗位、行业、专业交流群