全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
6492 15
2013-02-16
数据是地块面积,一共将近20万个,大小的取值非常广。老师让我分组对照分析,其中的一个是求均值和标准差,然后分组,分组点为(均值-3*标准差),(均值-3*标准差到均值-2*标准差  ),(均值-2*标准差到均值-标准差  ),(均值-标准差到均值+标准差),(均值+标准差到均值+2*标准差),(均值+2*标准差到均值+均值+3*标准差 ),(均值+3*标准差 ),最后做直方图或者条形图。现在问题来了,有些地块太小,比如小于10平方米,根据论文内容,这些值会影响均值,所以直接被剔除了。然后地块大小范围分布极广,有些甚至达到1400多ha,而求出来的平均值才3.4左右,标准差达到了13.2。我在网上看了大量资料,据说标准差远大于平均值时,求平均值的意义已不大。而且对于取值只有可能是正值的情况,样本是不符合正太分布的。作图后,也确实不符合正太分布。像这种情况,应该怎么处理啊?有没有其他分组方式?注:基本没学过统计学,希望各位说得详细点。小女子这厢有礼了。谢谢各位大神。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-2-16 08:07:47
你是要做分组对照分析哒,那就把这些数据全部按照要求分完组别然后看图像的差异咯。【你说:有些地块太小,比如小于10平方米,根据论文内容,这些值会影响均值,所以直接被剔除了。然后地块大小范围分布极广,有些甚至达到1400多ha,而求出来的平均值才3.4左右】为什么小于10的已经剔除,而平均值为3.4呢???不懂,呵呵。
   至于当数据全部为正数时,是否可能服从正态分布,个人认为是有可能的,只不过此时的均值肯定不是0而已,整体向右平移一下嘛
    说实话,鄙人理解能力有限,还未深刻明白楼主最终的目的是什么,呵呵
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-2-16 08:37:28
画出Histogram后, 找一本统计书看看你的图形形状和哪个分布相似。真心求教的话,最好自己写完了看看自己能不能看懂自己写的。
“比如小于10平方米,根据论文内容,这些值会影响均值,所以直接被剔除了。然后地块大小范围分布极广,有些甚至达到1400多ha,而求出来的平均值才3.4左右”。你自己看得懂吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-2-16 08:57:47
听你说的分布估计你的histogram是不是像gamma分布一样……其实如果数据严重右偏,用楼主你的那种分法确实不合理,我觉得可以考虑一下用分位点进行划分。如果再分析的话可以用非参的一些方法,比如friedman test,而且由于样本数量很大,非参的方法的power会不错的。分布的内容可以查一下统计学基础之类的书,非参的话楼主可以查一下比较基础的非参数统计。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-2-16 10:31:20
标准差远大于平均值, 且都是正值,normal distribution的确没太大意义。为什么剔除小于10平方米,我没看懂你的解释。试试对所有数据取log,然后看看是不是符合normal
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-2-16 18:59:40
smile108 发表于 2013-2-16 08:07
你是要做分组对照分析哒,那就把这些数据全部按照要求分完组别然后看图像的差异咯。【你说:有些地块太小, ...
1. 删除小于10平方米(0.001公顷)面积的原因:第一,数据是工商业用地面积大小,而从实际出发,对于小于10平方米的工商业园区几乎是不可能的。第二,用均值加减标准差来作为分组点,就得算均值,那些小于10平方米的数据也会影响到均值的计算。
2. 删除的数据是0.001公顷,平均值是3.4公顷,标准差是13公顷。90%的数据都分布在0.05公顷到10公顷之间。不好意思,我忘记说单位了。
3. 老师建议我用均值加减标准差的倍数来作为分割点,由于均值比标准差小很多,所以只要是减去,那么那个分割点肯定是负值,而地块的面积是不可能为负值的,在这些负值区域是不可能有地块分布的。所以我觉得这种分组方式不对,想寻求其他分组方式。
4.我也认为数据全部为整数时,也有可能是正态分布。只是我的数据,均数比标准差小很多,做出来的直方图如下,看上去明显不是正态分布。横坐标是面积大小(单位为公顷),纵坐标为频率,这个图是spss自动等距分的组,还有那些小于0.001公顷的值一共有2000多个,不在这个图里。
5.论文其中的一个目的是,利用统计学知识,如何对工商业区域按照面积大小进行分类或者分组。所以想问问大家,大家在处理数据时,还有些什么分组方式。
最后谢谢楼主关注

附件列表
未命名.jpg

原图尺寸 23.12 KB

未命名.jpg

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群