全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
2154 5
2012-05-13
我看到第14章 14.2.7 节关于字符变量压缩的章节。
有两个问题:


1. 我算出来的log p value 最小的聚类数是5,而书上是3. 是不是也有人和我一样?还是我哪里算错了?


2. 按我的理解,这部分code的逻辑是,先算出location*redm_flag的列联表的卡方值_Pchi_。然后以location变量每一类别的均值为目标做聚类分析,并且算出每一类别下面的Rsquared值。最后设定变量Chisquare=_Pchi_*Rsqured, 然后假设该变量服从卡方分布,算出该变量的p值,最后取具有最小的p值的聚类数。 我想请教下这里是怎么体现“使聚类后的类别之内相对于预测变量的离差平方和最小,而类别之间达到最大呢”?也就是说,为啥要构建变量Chisquare呢?
本人非统计学专业,不是很懂,望有高人赐教。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2012-5-17 10:38:11
这个其实和列联表分析的原理是一致的,先对原始的n组做卡方检验,可以得到一个P值(p1),然后将n组内的其中的两组合并,然后对n-1组进行相关的卡方检验,求得新的p值(p2),若p2<p1,那么就是说合并后的n-1组的差异更显著
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-5-17 16:36:32
小春1988 发表于 2012-5-17 10:38
这个其实和列联表分析的原理是一致的,先对原始的n组做卡方检验,可以得到一个P值(p1),然后将n组内的其中 ...
非常感谢。按我的理解,在这里,如果特定分组数的组内方差越小,那么聚类分析的Rsquared值越大,所以要构建统计量_Pchi_*Rsquared,当这个统计量显著地区别于0的时候,说明代表组间方差的_Pchi_和代表组内方差的(反比)的Rsquard都比较大,即组间方差最大和组内方差最小?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-5-17 21:53:23
你好,我之前也研究过那个建模过程,我在最后得到的分组(变量组合)上有些出入,希望我们可以互相交流一下,不知你是否愿意。qq:379542114
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-1-10 17:21:41
我算出来是4嘛,还有人在看这本书吗,求沟通
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-1-11 10:30:56
发现了一个错误,原书在代码编写时,B7写重了,并且原始数据中有19个变量
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群