全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1216 0
2020-09-18
逻辑回归
Logistic回归是一种用于分类问题的统计方法。在统计中,逻辑模型(或logit模型)用于对特定类别或事件(例如通过/失败,胜利/失败,生死/健康或生病)的概率进行建模。可以将其组合起来以对几种事件建模,例如确定图像是否包含猫,狗,狮子等。……在图像中检测到的每个对象都将被分配一个介于0和1之间的概率,并且其总和加一。
逻辑回归的类型:
二元(例如肿瘤恶性或良性)
多元线性函数未通过分类(例如,猫,狗或绵羊的)
我们可以将Logistic回归称为线性回归模型,但是Logistic回归使用更复杂的成本函数,该成本函数可以定义为“ Sigmoid函数”,也可以称为“逻辑函数”,而不是线性函数。逻辑回归的假设倾向于将成本函数限制在0到1之间。因此,线性函数无法表示它,因为它的值可以大于1或小于0,而根据逻辑回归的假设是不可能的。
乙状结肠功能?
为了将预测值映射到概率,我们使用Sigmoid函数。该函数将任何实际值映射到0到1之间的另一个值。在机器学习中,我们使用Sigmoid将预测映射到概率。
Logistic回归模型的性能:
要评估逻辑回归模型的性能,我们必须考虑几点。无论您要使用哪种工具(SAS,R,Python),请始终查找:
1. AIC(赤池信息标准) —在逻辑回归中调整后的R2的相似度量是AIC。AIC是对模型的系数进行惩罚的拟合度量。因此,我们总是更喜欢具有最小AIC值的模型。
2. Null Deviance和残差-Null Deviance表示模型预测的响应,除了截距外什么都没有。值越低,模型越好。残余偏差表示模型在添加自变量时预测的响应。值越低,模型越好。
3. 混淆矩阵:只是表格形式表示实际值与预测值。这有助于我们找到模型的准确性并避免过度拟合。
真实肯定(TP):用于正确预测的事件值。
真阴性(TN):用于正确预测的无事件值。
误报(FP):用于错误预测的事件值。(也称为“ I类错误”。)。
假阴性(FN):用于错误预测的无事件值(也称为“ II型错误”。)。
准确性:总体而言,分类器多久正确一次?
精度=(TP + TN)/总
召回:TP / TP + FN
错误分类率:总的来说,有多少次出错?
错误分类率=(FP + FN)/总
“错误率” = 1-精度
“专长” = 1-误报率
精度:当预测为是时,它多久正确一次?精度= TP / TP + FP
患病率:样本中实际出现“是”状况的频率是多少?
患病率=实际是/总计
4. ROC曲线:接收器工作特性(ROC)通过评估真实阳性率(敏感性)与错误阳性率(1-特异性)之间的折衷来总结模型的性能。在绘制ROC时,建议假设p> 0.5,因为我们更加关注成功率。ROC总结了p> 0.5的所有可能值的预测能力。曲线下面积(AUC),称为准确性指数(A)或一致性指数,是ROC曲线的理想性能指标。曲线下面积越大,模型的预测能力越好。以下是示例ROC曲线。理想预测模型的ROC的TP等于1,FP等于0。该曲线将触及图形的左上角。
注意:对于模型性能,您还可以考虑似然函数。之所以这样称呼,是因为它选择了使解释观测数据的可能性最大化的系数值。它表示当值接近1时拟合良好,而当值接近0时数据拟合不佳。
5. Cohen的Kappa:本质上,这是衡量分类器执行效果的指标,而不是偶然的分类效果。换句话说,如果准确性和零误码率之间存在较大差异,则模型的Kappa得分将很高。
6. F得分:这是真实阳性率(召回率)和精确度的加权平均值。
Logistic回归的优势:
它是一种广泛使用的技术,因为它非常高效,不需要太多的计算资源,具有高度可解释性,不需要缩放输入功能,不需要任何调整,易于正则化并且输出校准良好的预测概率。
当您删除与输出变量无关的属性以及彼此非常相似(相关)的属性时,逻辑回归的效果更好。因此,特征工程在逻辑和线性回归的性能方面起着重要作用。
由于它的简单性以及可以相对容易和快速地实现它的事实,Logistic回归也是一个很好的基准,可以用来衡量其他更复杂算法的性能。
Logistic回归的缺点:
Logistic回归也不是最强大的算法之一,并且可以很容易地被更复杂的算法所超越。同样,我们无法通过逻辑回归来解决非线性问题,因为它的决策面是线性的。
如果逻辑变量与目标变量不相关,非常相似或彼此相关,则逻辑回归将无法很好地执行。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群