全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
14023 34
2015-01-21
心得1:我们做问卷调查的人,经常会遇到收集到的数据是偏正态分布的连续变量(主要表现为有极端值存在),可考虑用对数变换的方法对原始数据进行处理。倘若对数变换后还是存在很多极端值(看箱图),这时可考虑将其分组(如分成高、中、低),然后再通过设置两个虚拟变量的方式将分组后的变量处理后引入下一步的建模;


心得2:在对农户问卷数据做聚类分析时,先考察数据的分布,一般情况下很多变量均是正偏态分布,在不想去除极端值的情况下(去除极端值会造成本不多的样本再度流失)可考虑在系统聚类时用横向标准化的方法并用中位数进行聚类。这样既不损失样本,又能在不受极端值影响下考察数据的集中趋势,不至于得到不好甚至错误的分析结果(因为均值受极端值影响);

心得3:在做回归分析时(不管是线性回归还是logistic回归),先做变量间多重共线性诊断(可通过主成分回归解决多重共线性问题),然后在变量选择时依据0.05的标准依次剔除不显著的变量。这样做比单纯使用逐步向前或向后法要好。因为据估算,直接使用逐步向前或向后的方法选择变量,其犯错误的概率为1/3左右。故而,有时间还是人为的多跑跑模型为好,不要太依赖于软件所谓的“智能”;

心得4:在处理数据时,当存在极端异常值时(通过箱图判断),如果是正偏态分布,可通过取对数办法解决。如果数据里面包含负数,没法取对数时,可通过缩尾处理极端异常值。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-1-22 00:26:47
不错的Idea,谢啦!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-22 00:33:08
赞。请问心得3 怎么做  现在在做 m regression
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-22 01:08:02
不错啊,看得出是非常细心的研究者。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-22 09:09:10
gxnnhsd 发表于 2015-1-22 00:26
不错的Idea,谢啦!
感谢感谢,多交流,呵呵~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-22 09:11:08
gxnnhsd 发表于 2015-1-22 00:26
不错的Idea,谢啦!
不大清楚你想问的问题,你是想问主成分回归怎么做还是为啥问题呢?主成分回归是先对自变量做多重共线性诊断,将存在多重共线性的变量做主成分分析,合并成一个新的变量,然后再将新的变量和因变量做进一步的回归分析。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群