悬赏 1 个论坛币 未解决
大家好,本人现在在公司做数据分析工作。工作上遇到一些问题,想与大家探讨一下。
     1、分析两个变量(x,y)之间的关联。
        画出两个变量的散点图,发现变量不成线性关系。就是一个正方图上,都有数据分布点。当然数据分布密度不同。把x划分为一段段区间时,对x的每一区间,y值的直方图可以用Gamma分布拟合。同样,把y划分为一段段区间时,对y的每一区间,x的直方图可以用Gamma拟合。所以x越小,y越小,其密度值越大。问题是,这样的分析结果,告诉需要知道分析结果的同事,如何办呢?同事不太懂统计学,只想知道x,y之间的关系如何。我的想法是将数据分成两部分。一部分是将近90%的数据集中的区间范围,另外一部分当作异常点。然后告诉给同事,觉得有点矛盾,似乎太简单了,而且没有什么逻辑和有意义的结论。而且90%一定是好的吗?请问大家有什么想法??
     2、连续变量的区间划分。
      有一个连续变量的一万多条取值,且取值区间已知。如何划分其区间呢?多少个区间,每个区间的大小?根据其概率密度来划分吗?记得好像有个连续变量聚类的方法,不过忘记了。希望哪位仁兄知道具体过程,说一声。