全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
3244 1
2013-08-04
这两天心情挺低落的,前两天在论坛上发了个帖子:Puzzled//关于方差分析法(ANOVA)的两个困惑https://bbs.pinggu.org/forum.php?mod=viewthread&tid=2563402&from^^uid=3778402
结果一直没有人帮忙给个解答,不知道是因为我问的问题太弱智了大家不屑于回答,还是其他什么原因,反正就是有人看无人答。
想起前不久也是在论坛上看到的一句话:“在学习R时,遇到不懂的,就逛各大论坛到处发贴,有些帖子得到了好心人的回答,于是楼主带着满意的幸福离开了;而有些则石沉大海,于是失落的走了。”
想想,是挺难过的。有的时候学习真的是一件挺孤独的事情,问题不能得到解决时,是多么希望有了老师能帮忙指明一本书,一篇论文,好让我自己去学习。可惜,这样好的老师总是可遇而不可求的。
回想起自己之前阅读各类帖子时,看到有一些楼主提了一些问题,凡是自己觉得可以给个回答的,都能热心帮助一把,虽然有的时候是很简单的内容,但能帮助别人总是很开心的事情。尤其是在网络论坛上帮助别人,至少不会惹上“被告到法院赔款”的境地,我们又何乐而不为呢?帮助别人不是为了日后能有什么回报,但是倘若假想,在你遇到疑惑时能有人帮你解答了,那下次在别人遇到困难时而恰恰你又力所能及,你会伸出相助之手么?将心比心吧。
唉,想想是挺悲哀的。学习这事,太孤独,太寂寞。
论坛上没能得到回答,后来也给一个老师发了个邮件,估计老师也放假了。唉。

好在,我还算是一个比较倔强的人,不解决问题没心思继续看书。
于是,各种搜索终于在一个很偏僻的角落里找到两篇关于回归分析和方差分析关系小短文,虽然论述不太详细,但是,还是能大致上明白这两个ANOVA Table之间的关系了。
原本,不太想在论坛上去分享这个问题的,但是确实也有其他人也“同求”这个问题的答案,那还是贴出来跟大家一起分享一下吧。希望能帮助到有这个问题其他同学。

以下内容引用“卫生统计空间”
线性回归介绍之五——回归与方差分析的关系


http://hi.baidu.com/healthstat/item/a7eededeffae373de2108f2f





如果是初学者,看到这个题目一定有点惊奇:线性回归和方差分析还有关系?其实这不怪他们,应该是怪统计学教材以及统计教师。几乎所有的医学统计学教材中都把方差分析和线性回归分为独立两章,这倒不要紧,但是却没有专门的一章把它们的关系讲透,以至于许多学生学了很久都只能获得零零散散的珠子,缺乏一条将他们穿起来的线。这篇文章的目的就是通过一般线性模型(general linear model)的介绍,将方差分析与线性回归串起来。
这里仍然只是以单因素的线性回归为例,因为这样容易看懂。
对于随机设计的方差分析,其实如果大家注意一下,就应该发现,它们其实一共是两个变量,一个是分组变量,一个是分析的变量。比如,比较3种药物的降压效果,药物就是分组变量,有3个取值;血压值就是分析的变量。当然,对于方差分析来讲,分析变量一般都是连续型资料,而分组变量一般都是分类资料。
如果再注意看一下线性回归的形式,也应该发现,最简单的线性回归也是两个变量,一个是因变量或结局变量,一个是自变量或原因变量。比如体重对肺活量的影响。对于线性回归来讲,自变量和因变量都是连续型资料。
如果将这线性回归中的两个变量与方差分析中的两个变量比较一下,可以发现他们是一致的。方差分析中的分析变量实际上就是线性回归中的因变量,方差分析中的分组变量就是线性回归中的自变量。这两个方法的目的都是为了看自变量(分组变量)对因变量(分析变量)的影响。如上面所说的,目的就是为了看药物对血压的影响,体重对肺活量的影响。
比较一下,可以发现,线性回归和方差分析的结果变量是一样的,都是连续型资料,而自变量就不一样了,方差分析中是分类资料,而线性回归中是连续型资料。但他们都可以统一到一个大的范畴中,即一般线性模型。
其实如果把方差分析的形式改一下,大家可能就更容易理解了。一般的方差分析的数据大都列成这样的形式:
A B C 12 16 32 14 17 23 15 17 28 13 19 31 14 21 28
如果A、B、C分别用1、2、3来表示,列成下面的格式: y x 12 1 14 1 15 1 13 1 14 1 16 2 17 2 17 2 19 2 21 2 32 3 23 3 28 3 31 3 28 3
怎么样,这种形式跟线性回归的形式差不多了吧?y就是因变量,x就是自变量。唯一与线性回归不同的地方是:线性回归中的x和y是一一对应的,而这里的x和y是一对多的,即1个x对应多个y值,但这不影响分析。其实即使在线性回归中,偶尔也会出现一对多的现象的。比如体重对肺活量的影响,如果有好几个人体重相同而肺活量不同,就出现了一对多的现象。这就跟方差分析更像了。
最后加点总结性的、理论性的东西,一般线性模型的形式大致可以这样:
y=α+βx+ε,
这个其实大家都应该很熟悉了,在统计教材中的线性回归章节中一般都有这个公式。这里的y就是因变量,x就是自变量,但是这里需要注意的就是,x是分类变量的时候,就变成了方差分析的形式了,当x是连续型变量的时候,就变成了线性回归的形式了。
总之,正如哲学中内容与形式的原理,一般线性模型是内容,x的变化则显示了其不同的形式,但无论如何,它们的内容都是一般线性模型。

线性回归介绍之六——再谈回归与方差分析的关系
http://hi.baidu.com/healthstat/item/90ed8e3f57b51ac2382ffa2f
上一篇文章已经对方差分析和线性回归的关系进行了阐述,不过刚看到了一位朋友的留言提问,所以想针对这个问题继续谈一下二者的关系。
这一次主要是想结合一个实例来说明。比如有下面这样一个虚拟的例子:
组别 数值 1 11.1 1 8.17 1 12.73 1 15.83 1 15.6 1 17.2 1 5.45 1 11.3 2 23.73 2 18.86 2 26.65 2 16.72 2 17.33 2 18.08 2 16.55 2 17.87
这里可以看到,总共有两个变量,组别肯定是自变量,而数值(不管是什么结果)就是因变量。因为分组是人为控制的,而数值是一个随机变量,是需要观察才能了解的。
这里的自变量只有两个值,即1和2,因变量则有不同的数值。一般来说,如果自变量的类别很少,可以考虑采用方差分析,而如果类别很多,则考虑采用线性回归。实际上,无论采用哪种方法,他们的结果都是一致的。这里用SAS对方差分析和线性回归的分析结果进行比较。
如果用方差分析,结果为F=14.28,P=0.002,两组有统计学差异。如果采用线性回归,结果为F=14.28,P=0.002,或t=3.78,P=0.002。结果表明组别对数值有影响。
可以发现,他们的F值是相同的,而且F值恰好是T值的平方。而P值是不变的。这些绝不是偶然。而是必然的联系。也许大家在学习统计学的过程中,并没有老师介绍方差分析和T检验的关系,这里既然讲到这里,就顺便提一句,方差分析的F值是t检验的t值的平方。如果还想进一步看他们的关系,仔细观察一下F分布和t分布的图形,一定会对大家理解二者的关系有所帮助。
至于到底选择什么模型,是方差分析还是线性回归,其实不必拘泥。如果我的分组变量有2组或3组4组,一般来说,采用方差分析的可能性大一些。如果分组变量(或自变量)的类别很多,比如7类8类等,可以考虑采用线性回归。但这不是绝对的,也跟例数有关。比如,分组变量只有4组,即1、2、3、4,但结果变量只有7个,那这时采用线性回归或许更好一些。如果分组变量有8组,即1-8,但结果变量有1000个,这是还是采用方差分析更好一些。具体选用哪一种方法都无所谓,关键是他们的结果都是一致的,总会得出相同的结论。




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-1-8 15:29:46
感谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群