全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 学道会
702 2
2020-01-03
2020/01/03
《百面机器学习-算法工程师带你去面试》读书笔记
《No.3: p22~p32》第二章 模型评估

Q8 评估指标的局限性(准确率的局限性): 分类准确率高达95%,但使用时还是分类错误,原因为何?
1.        准确率=正确分类的样本数/总样本数
2.        准确率有名弦的缺陷,当负样本占99%的时候,模型把所有样本都预测为负样本也可以获得99%的准确率。所以当类别样本比率不均衡时,占比较大的类别会成为影响准确率的重要因素。可改用平均准确率(每个类别夏的样本准确率的算术平均)可改善此问题

Q9 准确率与召回率的权衡
1.        搜索排序模型返回的Top 5的精确度非常高,但实际使用,用户还是找不到想要的视频?
2.        精确率=分类正确的正样本个数/分类器判定为正样本的样本个数
3.        召回率=分类正确的正样本个数/真正的证样本的比率
4.        精确率与召回率较难兼顾,因为要提高精确率会导致召回率降低。
5.        可用P-R曲线的整体表现才能对模型进行全面评估,不能只看某个点对应的P-R值。
6.        此外F1 score和ROC也可以评估模型的性能。

Q10 平方根误差的意外

1        RMSE常被用来评估模型的好坏,但若有离群点会造成RMSE指标变的很差。
2        如何解决离群值的问题
2.1        若离群值认定为”噪音点”,则过滤掉。
2.2        若离群值认定为”非噪音”,建模就要考虑进去
2.3        找一个更合适的指标来评估此模型,如平均绝对百分比误差(MAPE),MAPE将每个点的误差进行归一化,降低了个别离群点带来的绝对误差的影响。

Q11 什么是ROC曲线

1.        ROC曲线是Receiver Operating Characteristic Curve的简称,中文为”受试者工作特征曲线’,源于军事领域。
2.        ROC曲线的横坐标为假阳性率(False Positive Rate, FPR);纵坐标为真阳性率(True Positive Rate, TPR)。
Q12 如何绘制ROC曲线?
ROC是通过不断移动分类器的cut off point来生成曲线上的一组关键点。

Q13 如何计算AUC?
  AUC是指ROC曲线下的面积。,AUC越大,模型效能越好。

Q14 ROC曲线与P-R曲线有何差异?
1.        ROC曲线的形状,不随着正负样本的分布变化而改变。
2.        P-R曲线,会因为正负样本分布变化而改变。但若想看到模型在特定数据集上的表现,P-R曲线更好用。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-1-4 00:50:04
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-1-4 17:55:03
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群