比较线性回归和非线性回归
线性和非线性回归的目标
一条直线可以用一个简单的方程来描述,这个方程可以从X、斜率和截距计算Y。线性回归的目的是找到定义最接近数据的直线的斜率和截距的值。
非线性回归比线性回归更通用,可以将任何模型(方程)拟合到您的数据中。它找到那些参数的值,生成最接近数据的曲线。
线性和非线性回归是如何工作的
线性和非线性回归都是找到使直线或曲线尽可能接近数据的参数值(线性回归的斜率和截距)。更准确地说,目标是最小化点到直线或曲线的垂直距离的平方和。
线性回归使用的数学可以用简单的代数完全解释(在许多统计学书籍中都有展示)。把数据放进去,答案就出来了。没有模棱两可的机会。如果您愿意,您甚至可以手工计算。
非线性回归使用计算密集的迭代方法,只能用微积分和矩阵代数来解释。该方法需要每个参数的初始估计值。
线性回归是非线性回归的一种特例
非线性回归程序可以拟合任何模型,包括线性模型。线性回归只是非线性回归的一种特殊情况。
即使您的目标是在数据中拟合一条直线,在许多情况下,选择非线性回归比线性回归更有意义。
使用非线性回归分析数据只比使用线性回归稍微困难一点。选择线性或非线性回归应该基于拟合的模型。不要为了避免使用非线性回归而使用线性回归。避免转换,如Scatchard或Lineweaver-Burke转换,其唯一目标是将数据线性化。
建议:看图表
下面的四个图表是由Anscombe(1)创建的,用来说明查看数据的重要性。四组数据,即’ Anscome's quartet’,均为11分。您一眼就能看出数据是非常不同的。令人惊讶的是,对这四个数据集的分析在许多方面是相同的。当通过线性回归分析时,所有这些值对于所有四个图都是相同的:
- X和Y的平均值
- 斜率和截距
- r2
- 斜率和截距的标准误差和置信区间
- 残差的标准差(sy.x)
- 检验零假设时的F比和P值,即斜率确实是0.0(水平)
- 斜率与截距的协方差(Prism非线性回归分析计算)
[size=14.6667px]
线性回归的差异如下:
- 图中黄色部分所示的置信区间对于四个图形中的三个是相同的,但对于第四个图形(具有不同的X值)则不同。
- 线性运行试验的结果
- 残差正态性检验
[size=14.6667px]
(1). F.J. Anscombe:《统计分析中的图表》,《美国统计学家》,1973年2月27日,第17-21页。
建议:避免Scatchard,Lineweaver-Burk和类似的变换
在用线性回归分析数据之前,停下来问问自己,用非线性回归拟合数据是否更有意义。如果您已经将非线性数据转换为创建线性关系,那么几乎可以肯定,使用非线性回归来拟合原始数据会更好。
在非线性回归出现之前,分析非线性数据的最好方法是将数据转换成线性图,然后用线性回归分析转换后的数据。例子包括酶动力学数据的Lineweaver-Burk图、结合数据的Scatchard图和动力学数据的对数图。
这些方法已经过时了,不应该用来分析数据。
这些方法的问题是变换会扭曲实验误差。线性回归假设直线周围的点的分散遵循高斯分布,并且x的每个值的标准差都是相同的,这些假设在转换数据后很少成立。此外,一些变换会改变X和Y之间的关系。例如,在Scatchard图中,使用X(绑定)的值来计算Y(绑定/自由),这违反了线性回归的假设,即所有不确定性都在Y中,而X是精确已知的。如果在X和Y方向上出现相同的实验误差,那么最小化点到直线的垂直距离的平方和是没有意义的。
由于违反了线性回归的假设,由回归线的斜率和截距得出的值并不是对模型中变量的最准确的确定。考虑到收集数据所花费的时间和精力,您希望使用最好的技术来分析数据。非线性回归产生最准确的结果。
下图显示了数据转换的问题。左面板显示的数据遵循一个矩形双曲线(绑定等温线)。右边的面板是相同数据的Scatchard图。左边的实体曲线是通过非线性回归确定的。右边的实线显示了同样的曲线经过Scatchard变换后的样子。虚线表示转换后数据的线性回归拟合。Scatchard图可用于确定受体数(Bmax,作为线性回归线的x截距)和解离常数(Kd,作为斜率的负倒数)。由于Scatchard变换放大和扭曲了散点,线性回归拟合不能产生最准确的Bmax和Kd值。
不要为了避免使用非线性回归而使用线性回归。用非线性回归拟合曲线并不困难。
虽然通常不适合分析转换后的数据,但在线性转换后显示数据通常是有帮助的。许多人发现可视化地解释转换后的数据更容易。这是有道理的,因为人类的眼睛和大脑进化到检测边缘(线),而不是检测矩形双曲线或指数衰减曲线。即使使用非线性回归分析数据,显示线性转换的结果也是有意义的。