全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
1428 2
2009-08-04
悬赏 1 个论坛币 未解决
大家好,本人现在在公司做数据分析工作。工作上遇到一些问题,想与大家探讨一下。
     1、分析两个变量(x,y)之间的关联。
        画出两个变量的散点图,发现变量不成线性关系。就是一个正方图上,都有数据分布点。当然数据分布密度不同。把x划分为一段段区间时,对x的每一区间,y值的直方图可以用Gamma分布拟合。同样,把y划分为一段段区间时,对y的每一区间,x的直方图可以用Gamma拟合。所以x越小,y越小,其密度值越大。问题是,这样的分析结果,告诉需要知道分析结果的同事,如何办呢?同事不太懂统计学,只想知道x,y之间的关系如何。我的想法是将数据分成两部分。一部分是将近90%的数据集中的区间范围,另外一部分当作异常点。然后告诉给同事,觉得有点矛盾,似乎太简单了,而且没有什么逻辑和有意义的结论。而且90%一定是好的吗?请问大家有什么想法??
     2、连续变量的区间划分。
      有一个连续变量的一万多条取值,且取值区间已知。如何划分其区间呢?多少个区间,每个区间的大小?根据其概率密度来划分吗?记得好像有个连续变量聚类的方法,不过忘记了。希望哪位仁兄知道具体过程,说一声。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2009-8-5 20:27:20
拟合的时候为什么不试一下变量值的转换呢?可能会拟出更直观的方程啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群