全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2247 0
2020-12-10
二元交叉熵又称对数损失-Logistic回归中使用的成本函数
总览
如果我们使用线性回归模型来解决分类问题,将面临挑战。
为什么在Logistic回归中不将MSE用作成本函数?
本文将通过一个简单示例介绍Log Loss函数背后的数学原理。
本文的先决条件:
线性回归
逻辑回归
梯度下降
介绍
“冬天在这里。” 让我们迎接冬季遇到温暖的数据科学问题??
让我们以一家生产夹克和开衫的服装公司为例。他们希望有一个模型可以根据其历史行为模式来预测客户将购买夹克(1类)还是开衫(0类),以便他们可以根据客户的需求提供特定的报价。作为数据科学家,您需要帮助他们建立预测模型。
当我们开始机器学习算法时,我们学习的第一个算法是“线性回归”,在其中我们可以预测连续的目标变量。
如果在分类问题中使用线性回归,则将获得如下所示的最佳拟合线:
对数损失-线性回归
Z =?X+ b
直线问题:
当您扩展此行时,您将拥有大于1且小于0的值,这在我们的分类问题中没有多大意义。这将使模型解释成为一个挑战。这就是“ Logistic回归”的来源。如果我们需要预测网点的销售,则此模型可能会有所帮助。但是在这里,我们需要对客户进行分类。
-我们需要一个函数来转换此直线,以使值在0到1之间:
Y = Q(Z)
Q(Z) = 1‐ / 1 + e -z (S型函数)
? = 1/1 + e -z
-转换后,我们得到的直线将保持在0到1之间。此函数的另一个优点是,我们将获得的所有连续值都将在0到1之间,我们可以将其用作进行预测的概率。例如,如果预测值在最右边,则概率将接近1;如果预测值在最左边,则概率将接近0。
对数损失-S形函数
选择正确的模型是不够的。您需要一个函数来衡量给定数据的机器学习模型的性能。成本函数量化了预测值和期望值之间的误差。
“如果无法衡量,就无法改善。”
-此转换将改变的另一件事是成本函数。在线性回归中,我们对成本函数使用“均方误差”:
对数损失-成本函数
当相对于线性回归模型的权重参数绘制此误差函数时,它会形成一条凸曲线,使其有资格应用梯度下降优化算法来通过找到全局最小值和调整权重来最小化误差。
为什么在Logistic回归中不使用均方误差作为成本函数?
在逻辑回归YI是一个非线性函数(? = 1/1 +? -z),如果我们把此在上述MSE方程它会给出一个非凸函数,如下所示:
当我们尝试使用梯度下降来优化值时,会发现复杂性以寻找全局最小值。
另一个原因是分类问题,我们的目标值像0/1,所以(?-Y )2 总是在0-1之间,这将使得很难跟踪错误并且很难将其高位存储精度浮点数。
Logistic回归中使用的成本函数是Log Loss。
什么是日志丢失?
对数丢失是基于概率的最重要的分类指标。很难解释原始的对数损失值,但是对数损失仍然是比较模型的良好指标。对于任何给定的问题,较低的对数损失值意味着更好的预测。
数学解释:
对数损失是每个实例的校正后的预测概率的对数的负平均值。
让我们通过一个例子来理解它:
该模型给出了如上所示的预测概率。
校正后的概率是多少?
->默认情况下,物流回归模型的输出是样本为正(由1表示)的概率,即,如果训练了逻辑回归模型以对“公司数据集”进行分类,则预测概率列会说该人购买夹克的概率。在上述数据集中,ID6的人购买夹克的概率为0.94。
同样,ID5的人购买夹克(即属于1类)的概率为0.1,而ID5的实际类别为0,因此该类的概率为(1-0.1)= 0.9。0.9是ID5的正确概率。
我们将为每个实例找到更正概率的日志。
如您所见,这些日志值是负数。为了处理负号,我们采用这些值的负平均值,以维持一个常见的约定,即损失分数越低越好。
简而言之,可以通过三个步骤来查找对数丢失:
寻找更正的概率。
记录校正后的概率。
取第二步得到的值的负平均值。
如果我们总结以上所有步骤,则可以使用以下公式:
这里Yi表示实际类别,log(p(yi)是该类别的概率)。
p(yi)是1。
1-p(yi)是0的概率。
现在,让我们看看以上公式在两种情况下如何工作:
当实际类别为1时,公式中的第二项将为0,我们将保留第一项,即yi.log(p(yi))和(1-1).log(1-p(yi)) 0。
当实际类别为0时:第一项将为0,并保留第二项,即(1-yi).log(1-p(yi))和0.log(p(yi))将为0 。
哇!!我们回到了原始的二进制交叉熵/对数损失公式??
当您查看实际类别1和0的成本函数图时,采用对数的优势就会显示出来:
日志丢失
红线代表1类。我们可以看到,当预测概率(x轴)接近1时,损失较小;而当预测概率接近0时,损失接近无穷大。
黑色线代表0级。可以看到,当预测概率(x轴)接近0时,损失较小;当预测概率接近1时,损失接近无穷大。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群