全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管百科 爱问频道
1840 6
2009-08-04
悬赏 1 个论坛币 已解决
大家好,本人现在在公司做数据分析工作。工作上遇到一些问题,想与大家探讨一下。
     1、分析两个变量(x,y)之间的关联。
        画出两个变量的散点图,发现变量不成线性关系。就是一个正方图上,都有数据分布点。当然数据分布密度不同。把x划分为一段段区间时,对x的每一区间,y值的直方图可以用Gamma分布拟合。同样,把y划分为一段段区间时,对y的每一区间,x的直方图可以用Gamma拟合。所以x越小,y越小,其密度值越大。问题是,这样的分析结果,告诉需要知道分析结果的同事,如何办呢?同事不太懂统计学,只想知道x,y之间的关系如何。我的想法是将数据分成两部分。一部分是将近90%的数据集中的区间范围,另外一部分当作异常点。然后告诉给同事,觉得有点矛盾,似乎太简单了,而且没有什么逻辑和有意义的结论。而且90%一定是好的吗?请问大家有什么想法??
     2、连续变量的区间划分。
      有一个连续变量的一万多条取值,且取值区间已知。如何划分其区间呢?多少个区间,每个区间的大小?根据其概率密度来划分吗?记得好像有个连续变量聚类的方法,不过忘记了。希望哪位仁兄知道具体过程,说一声。

最佳答案

wd181 查看完整内容

对于第一个问题,可以采用库克距离作为判断异常值的方法,这个可以在R和SPSS中实现,也可以通过探索性分析中的盒式图作为依据,找出异常值,你用90%的方法比较粗糙,且不是很好解释,不然你为什么不用95%呢?是吧? 第二个问题,目前区间的选取是结合数据特征和实际含义的,所以不是很好说,但是可操作性很强,一般还是用等距的方式,你说有一万多条取值,可以试着按照你的取值范围分成100等分、200等分等等,这个可以自己决定。 ...
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2009-8-4 21:43:31
对于第一个问题,可以采用库克距离作为判断异常值的方法,这个可以在R和SPSS中实现,也可以通过探索性分析中的盒式图作为依据,找出异常值,你用90%的方法比较粗糙,且不是很好解释,不然你为什么不用95%呢?是吧?
第二个问题,目前区间的选取是结合数据特征和实际含义的,所以不是很好说,但是可操作性很强,一般还是用等距的方式,你说有一万多条取值,可以试着按照你的取值范围分成100等分、200等分等等,这个可以自己决定。
聚类分析有变量(指标)分类和样品分类两种,最好你的每个样品有多个属性,不然不能做
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-8-4 21:57:33
对于第一个问题,可以采用库克距离作为判断异常值的方法,这个可以在R和SPSS中实现,也可以通过探索性分析中的盒式图作为依据,找出异常值,你用90%的方法比较粗糙,且不是很好解释,不然你为什么不用95%呢?是吧?
第二个问题,目前区间的选取是结合数据特征和实际含义的,所以不是很好说,但是可操作性很强,一般还是用等距的方式,你说有一万多条取值,可以试着按照你的取值范围分成100等分、200等分等等,这个可以自己决定。
聚类分析有变量(指标)分类和样品分类两种,最好你的每个样品有多个属性,不然不能做
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-8-4 22:22:10
非常感谢!
      1、第一个问题,我的上司老大需要的是一些简单而有逻辑的结果,如果告诉他分布在哪些区间内的是正常值,异常值有多大的比例,从哪个区间开始算是异常值。我想我会被老大骂死。但是两个变量之间的散点图,又表明两者之间,没有太明显的关系,似乎只能给出正常值的取值之间和异常值比例的结果。请问还有什么方法可以找出两个变量的关系吗?
      2、只有一个变量的,不是用来聚类的,
      3、还有第三个问题未请教。
         一个变量和其它n个变量的关联
    一个变量,如健康水平,离散分为25个水平,其它九个变量,如锻炼频率、肺活量等,每个变量也是离散有25个水平。共有十万条记录。求一个变量和其它n个变量的关联。注意,是关联,不是因果关系,健康水平只是我举出的例子,并不代表一个变量之间和其它n个变量的因果关系。而且多元回归是行不通的,方差分析不支持九个变量这个多。如果求呢?我的初步想法是将n个变量进行聚类,然后将每个聚类后的每类变量用个指标值代替。但下一步怎么做,无从下手,指标值如何算?算出指标值,下一步骤是什么?或者将变量进行聚类后,再进行区间划分,然后计算分布密度,类似第一问。
       本人统计学水平不高,现在很烦这三个问题。希望楼上的不烦赐教!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-8-4 22:25:19
忘了加上一句,对于对三个问题,如果1对n个变量,如果1变量是连续变量,又有什么变化呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-8-5 21:54:39
没有搞懂你说的第三个问题,能够说清楚点么?我被你搞糊涂了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群