全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件
1868 11
2024-08-05

线性回归通过数据拟合一条直线,以找到斜率和截距的最佳拟合值。


线性回归的目标


什么是线性回归?


线性回归使以下模型适应您的数据:


1.gif

2.gif


斜率表示直线的陡峭程度。它等于Y的变化量对应X的每一个单位变化量,用Y轴的单位除以X轴的单位表示。如果斜率是正的,Y随着X的增加而增加。如果斜率为负,Y随着X的增加而减小。


Y轴截距是直线在X = 0时的Y值。它定义了直线的高度。


简单线性回归vs多元线性回归

上面显示了简单的线性回归。这里只有一个X变量。相反,多元线性回归将Y定义为包含多个X变量的函数。更一般地说,还有其他类型的关系,其中可以使用多个X变量来描述单个Y变量。这些方法统称为多元回归(多元线性回归是多元回归的一种)。

线性回归vs逻辑回归

在简单线性回归中,因变量(Y)是连续的,这意味着它可以取任何范围的值。在某些情况下,Y变量可能不是连续的。例如,如果Y变量只能是两个值中的一个(例如,是或否、正面或反面、雄性或雌性老鼠等),那么它就被称为二元分类变量。在这种情况下,线性回归是不合适的。相反,您可以考虑使用逻辑回归,它对观察给定结果(有时称为“成功”)的概率进行建模。与线性回归一样,逻辑回归可以有一个或多个X变量。


线性回归的运作原理


线性回归是如何工作的,平方最小值


线性回归的目标是调整斜率和截距的值,以找到最能从x预测Y的直线。更准确地说,回归的目标是最小化点到直线的垂直距离的平方和。为什么要最小化距离的平方和呢?为什么不简单地把实际距离的和最小化呢?

如果随机散点遵循高斯分布,则更有可能出现两个中等大小的偏差(例如每个偏差5个单位),而不是一个小偏差(1个单位)和一个大偏差(9个单位)。将距离绝对值的总和最小化的程序不会优先于距离两个点5个单位、距离一个点1个单位、距离另一个点9个单位的直线。在每种情况下,距离的总和(更准确地说,是距离绝对值的总和)是10个单位。最小化距离平方和的过程更倾向于两个点之间的距离为5个单位(sum-of-squares = 50),而不是一个点之间距离为1个单位,另一个点之间距离为9个单位(sum-of-squares= 82)。如果散点是高斯分布(或接近高斯分布),则通过最小化平方和确定的线最有可能是正确的。


这些计算在每本统计书中都有显示,而且完全是标准的。


术语“回归”

术语“回归”,像许多统计学术语一样,在统计学中的使用与在其他环境中的使用完全不同。该方法最初用于研究父亲和儿子身高之间的关系。这两者当然是相关的,但是斜率小于1.0。一个高个子的父亲往往有比他矮的儿子;个子矮的父亲往往生出比自己高的儿子。儿子的身高回归到平均值。“回归”一词现在被用于许多种类的曲线拟合。

细节


线性回归的细节在许多教科书中都有解释,所以这里就不详细介绍了。Prism所做的一切都是标准的。


比较线性回归与线性相关

线性回归不同于线性相关。


目标是什么?


线性回归找到从X预测Y的最佳直线。

相关性量化了两个变量的相关程度。通过数据点的相关性不适合一条线。您只需计算相关系数(r),它告诉您当另一个变量变化时,一个变量倾向于变化的程度。当r = 0.0时,没有关系。当r为正时,有一个趋势,一个变量上升,另一个也上升。当r为负时,一个变量上升,另一个变量下降。

什么样的数据?

线性回归通常在X是一个变量(时间、浓度等)时使用。


当您测量两个变量时,几乎总是使用相关性。当一个变量是您实验操作的东西时,它很少是合适的。


哪个变量是X,哪个是Y有关系吗?

哪个变量叫“X”,哪个叫“Y”在回归中很重要,因为如果您把这两个变量互换,您会得到一条不同的最佳拟合线。从X预测Y的最佳直线与从Y预测X的直线并不相同(然而,这两条直线对于R2具有相同的值)。

有了相关性,您就不必考虑因果关系了。这两个变量中哪个叫X,哪个叫Y并不重要。如果您交换这两个,您会得到相同的相关系数。

假设

通过线性回归,X值可以测量,也可以是实验者控制的变量。不假设X值是从高斯分布中采样的。假设点到最佳拟合线的距离遵循高斯分布,散点的SD与X或Y值无关。


相关系数本身只是描述两个变量如何一起变化的一种方法,因此可以对任何两个变量进行计算和解释。然而,进一步的推断需要一个额外的假设——X和Y都是测量的(是区间或比率变量),并且都是从高斯分布中采样的。这被称为二元高斯分布。如果这些假设是正确的,那么您可以解释r的置信区间和P值检验零假设,即两个变量之间确实没有相关性(并且您观察到的任何相关性都是随机抽样的结果)。


结果之间的关系

线性回归量化与r2的拟合优度,有时用大写R2表示。如果您把相同的数据放到相关性中(这很少是合适的;见上文),相关r的平方将等于回归r的平方。


相关性计算Pearson相关系数r的值,其取值范围为-1 ~ +1。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2024-8-6 09:39:58
谢谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-8-6 10:11:29
点赞楼主分享的资料,大有裨益!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-8-6 12:09:25
谢谢分享!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-8-6 14:05:03
多谢楼主分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-8-6 14:06:58
点赞分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群