全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件
2030 0
2021-03-15

【简单逻辑回归的目标】

结果变量(Y变量、因变量、反应变量等)只能呈现两种可能的结果时,使用逻辑回归,其目的是模拟观察成功的概率。从该意义上来说,“成功”只是指这两种可能结果中的一种,应基于实验设计。正如统计学中的许多术语一样,在此情况下,“成功”的含义与我们通常使用的含义略有不同。例如,在研究群体中罕见疾病的发病率时,你可能感兴趣的是一个人患上这种疾病的概率。在此情况下,如果仅仅是为构建模型,你会考虑将患上这种疾病设置为“成功”。
再看另一个示例,假设给你一个数据集,其中包含学生为考试所学习的时间长度,以及这些学生是否通过了考试。你可能希望学生为考试而学习时间越长,学生通过考试的可能性就越大。在这里,“成功”指学生通过。然而,用于逻辑回归的Y变量可以是任意值,只要它只能取两个可能值中的一个:是/否、通过/未通过、存活/死亡等等。另一种说法是,结果变量必须是“二分类”。通常,会将这些结果编码为“1”(表示“成功”)或“0”(表示“失败”)。请注意,在我们的示例中,如果给你每个学生的分数(百分比),你可能已考虑过执行线性或非线性回归。然而,因为我们的结果是二分类结果,因此逻辑回归才是合适的选择。

从某种意义上来说,简单逻辑回归可认为是简单线性回归的扩展,以处理具有二分类结果的情况:简单线性回归和简单逻辑回归均建立模型,通过知道单个输入值(X)可预测结果值(Y)。因此,在思考线性回归和逻辑回归的异同时,有两件非常重要的事情需要记住:
1.结果为连续结果时,适用线性回归;结果为二分类结果时,适用逻辑回归。试图在二分类结果变量上使用线性回归是行不通的。
2.逻辑回归会生成一个模型,允许您预测 成功的概率给定某个X值。你放入模型中的数据将只包括实际结果(在给定的X值下,观察到成功与否)。

【简单逻辑回归与简单线性回归有何不同?】
大家还记得简单线性回归吗?指路↓
https://bbs.pinggu.org/thread-10410928-1-1.html
https://bbs.pinggu.org/thread-10436206-1-1.html
https://bbs.pinggu.org/thread-10436219-1-1.html

线性回归的工作原理是拟合一个模型,在给定X值的情况下,可使用该模型来确定Y的实际值。此模型提供了有关这两个变量之间关系的信息,并回答了这样一个问题:随着X值的变化,Y的值会变化多少?换言之,使用已正确定义数据的线性回归模型,仅仅通过知道预测因子值,您就可很好预测结果值。相反,在给定预测因子值的情况下,逻辑回归会对观察成功的概率进行建模。以下方所示数据为例:
知乎配图标题图 21.png

在此图中,我们所有数据点取值0(未通过)或1(通过)。逻辑拟合为S曲线,其将成功概率建模为学习时间的函数。在该示例中,教师会很高兴地看到,学习4个小时的学生很少考试未通过。事实上,对于一个学习了4个小时的学生来说,该模型预测通过的概率约为70%。
知乎配图标题图 22.png

S曲线是逻辑函数估计概率的副产物。请注意,概率限制在0和1之间,这是有意义的:不能为事件发生设置“负概率”,大于100%的概率也没有任何意义。因此,S曲线的上限和下限也受到这些值的限制。但这意味着,与线性回归不同,我们从模型中得到的值并不能直接估计我们期望观察到的值。在X=4时,模型值为0.704。然而,对于我们在X=4时所做的任何观察,结果只会是0或1;观察值永远不会是0.704。该模型简单地告诉我们,X=4时,我们可预期约70%的结果为1。这是理解逻辑回归的一个关键点。
如果我们采用相同的数据比较逻辑回归模型和线性回归模型,我们会很快明白为什么简单线性回归模型对这种数据不起作用。

知乎配图标题图 23.png
我们的数据仍是0和1,但与逻辑模型不同,线性模型不能预测成功的概率。取而代之的是,其预测的值可小于0,也可大于1。例如,该模型预测,如果学生的学习时间少于0.9小时,则通过测试的估计值为负值。在某些情况下,二元独立变量可使用线性模型,进行简单的分类。然而,这些方法无法解读系数、显著性检验和置信区间。对于这些结果(结果为二元时),请使用逻辑回归。

【基于逻辑回归的分类】
如上文所述,逻辑回归的目的是模拟给定结果发生的概率。然而,研究人员有时并不预测概率,而是希望其模型的输出能够表明对于给定的X值来说是成功或失败。这称为“分类”。执行分类的最简单方法是设置所谓的临界值。该值为一个介于0与1之间的数字,用以区分何谓“成功”,以及何谓“失败”。例如,常见的是将分类临界值设为0.5(默认为Prism中的简单逻辑回归),这意味着如果模型预测的成功概率大于或等于0.5,则将该预测分类为“成功”(Y=1),如果小于0.5,则将分类为“失败”(Y=0)。
研究人员从这种分类中使用了许多指标,包括模型的灵敏性和特异性、分类的真阳性率(TPR)和假阳性率(FPR)、模型的阳性和阴性预测能力等概念。




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群