全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件
2947 0
2021-02-02
线性回归通过数据拟合直线,以找到斜率和截距的最佳拟合值。
在GraphPad官方用户指南里,有“线性回归”专题讲解,包含以下五个部分,在使用软件的同学可以去看看。
  • 线性回归的目标
  • 线性回归的计算原理
  • 比较线性回归和相关性
  • 比较线性回归和非线性回归
  • 通过线性回归分析变换数据来分析非线性数据的方法存在哪些问题



本篇起,分三篇围绕“线性回归”这一主题跟大家一起聊聊。


一、线性回归的目标
01 什么是线性回归?


线性回归使用该模型拟合数据:
文章配图-10.gif 文章配图-11.gif
斜率量化了这条线的陡度。其等于X的每单位变化对应的Y的变化,以Y轴的单位除以X轴的单位来表示。如果斜率为正,则Y随着X的增加而增加。如果斜率为负,则Y随着X的增加而减小。X=0时,Y截距是直线的Y值。其定义了线的高程。
注:“线性回归”不同于“相关性”。线性回归能够找出根据X预测Y的最佳直线,而相关性不能拟合通过数据点的直线。



02 简单线性回归与多元线性回归
上面显示了简单线性回归。仅有一个X变量。相比之下,多元线性回归将Y定义为包含几个X变量的函数。更宽泛地说,还有其他类型的关系,例如使用多个X变量来描述一个Y变量。这些方法统称为多元回归(多元线性回归是多元回归的一种)。

03 线性回归与逻辑回归
在简单线性回归中,因变量(Y)是连续的,这意味着它可采用任何范围的值。在某些情况下,Y变量可能不连续。例如,如果Y变量只能是两个值中的一个(例如,是或否,头或尾,雄性或雌性老鼠等等),则其就是一个二元分类变量。在此情况下,线性回归则不太合适。相反,你可以考虑使用逻辑回归,它模拟观察给定结果的概率(有时称为“成功”)。像线性回归一样,逻辑回归可有一个或多个X变量。

二、线性回归工作原理
04 线性回归工作原理:最小化平方和
线性回归的目的是调整斜率和截距的值,以便从X中找到最佳预测Y的直线。更准确地说,回归的目标是最小化点到直线的垂直距离的平方和。为何要最小化距离的平方和?为何不简单地最小化实际距离的总和?
如果随机散布服从高斯分布,则其具有两个中等大小的偏差(例如,每个偏差5个单位)比具有一个小偏差(1个单位)和一个大偏差(9个单位)的可能性更高。最小化距离绝对值总和的程序将不会优于一条距离两点5个单位的直线以及一条距离其中一点1个单位且距离另一点9个单位的直线。在所有情况下,距离的总和(更准确地说,距离绝对值总和)为10个单位。最小化距离平方和的程序更倾向于距离两点5个单位(平方和=50),而非距离其中一点1个单位,且距离另一个点9个单位(平方和=82)。如果散布服从高斯分布(或者接近高斯分布),则通过最小化平方和确定的直线最有可能是正确的。
将计算显示在每本统计学书中,且这些计算完全标准。

05 关于“回归”
类似于其他许多统计术语,“回归”一词在统计学中的使用与在其他上下文中的使用似乎有所不同。该方法首先被用于检验父子身高之间的关系。当然,这两者存在相关性,但斜率小于1.0。高个子父亲的儿子往往比父亲矮;矮个子父亲的儿子往往比父亲高。儿子的身高回归到平均值。“回归”一词现在用于多种曲线拟合。







二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群