全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1080 4
2022-10-20
各位大神,本人在用R语言做回归分析时,需要在建模后检验。对残差进行正态性、独立性、线性、同方差性检验。之后就疑惑了,这些检验指标的根据是什么?上网查询了下,发现高斯-马尔科夫定理说的是“在线性回归模型中,如果误差满足零均值、同方差且互不相关,则回归系数的最佳线性无偏估计(BLUE, Best Linear Unbiased Estimator)就是普通最小二乘法估计。”那么问题就来了,如果按照G-M定理说的,定理中说的是误差,但实际上我这里模型拟合后拟合值和真是值的差值却是残差,这两个概念并不一样,就算是“把残差视为对总体模型中误差项的估计”感觉还是难以理解。请教各位大神有没有对回归建模的假设根据更好的解释?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-10-20 13:54:50
xinyinian 发表于 2022-10-20 13:16
各位大神,本人在用R语言做回归分析时,需要在建模后检验。对残差进行正态性、独立性、线性、同方差性检验。 ...
实证中就是对回归残差进行检验,R中可以使用plot(model, which = c(1:4))实现
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-10-20 15:30:27
这么专业啊。如果不是专么研究统计基础理论的,有些问题倒不必钻牛角尖。
做线性回归,我们的假设是因变量与自变量之间的关系可以用形如\[y = \beta_{0} + \beta_{1}x +\epsilon\]的线性方程描述,其中\[\beta\]为回归参数,\[\epsilon \sim N(0,\sigma^{2}) \]为随机误差。
对于二维空间,普通最小二乘法在几何意义上使得所有样本点到方程所确定的线的残差平方和最短。
标准化残差,服从(0,1)标准正态分布。这一点与题目中的高斯-马尔科夫定理似乎不矛盾吧?

至于说误差(errors)还是残差(residuals),如果再扣细一些,什么是残差?什么又是误差?
说到误差,是谁和谁的误差,比如极大似然估计,其标准误差是指样本均值和总体均值的差异,而线性回归的误差可能说的是估计值的均方误差(MSE),而这个误差又可以拆成偏差(bias)和方差(variance)。
再理解一下,对于线性回归,这个误差和残差究竟有什么关联,可不可以说残差结果也是我们计算某种误差的基础呢。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-10-22 11:09:01
对这个问题曾经也云山雾罩了很久,后来在实际工作中逻辑上自洽了一下(自我安慰),也不知道对不对?拿出来分享下。假设设计一个零件某一标注尺寸是100mm, 在机床上加工后测量后为100.1mm;然后你拿这个观测值去做回归、残差。。。或其他数据分析。这里有个前提是假设观测值是"真实的“;但其实不是,本身测量工具的精度就会造成差异,譬如用不同的工具,游标卡尺或激光三坐标测量仪,就会引入与”真实值“间不同测量误差。所以定理里强调的前提是误差满足零均值,按照我的理解就是测量值与’真实值‘的差异。例子中三坐标测量仪精比游标卡尺搞几个数量级,可以认为误差更小。估计这也是测量器具需要定期校验的一个意义。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-10-27 10:55:05
GMT中给出的是一个模型,与真实情况有差距。模型中参数的真实值是没法知道的。根据数据拟合出的是估计值,所以需要做检验来验证假设。我觉得楼主可以再理解一下假设检验的概念,然后再看这个问题就更清楚了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群