2020/01/03
《百面
机器学习-算法工程师带你去面试》读书笔记
《No.3: p22~p32》第二章 模型评估
Q8 评估指标的局限性(准确率的局限性): 分类准确率高达95%,但使用时还是分类错误,原因为何?
1. 准确率=正确分类的样本数/总样本数
2. 准确率有名弦的缺陷,当负样本占99%的时候,模型把所有样本都预测为负样本也可以获得99%的准确率。所以当类别样本比率不均衡时,占比较大的类别会成为影响准确率的重要因素。可改用平均准确率(每个类别夏的样本准确率的算术平均)可改善此问题
Q9 准确率与召回率的权衡
1. 搜索排序模型返回的Top 5的精确度非常高,但实际使用,用户还是找不到想要的视频?
2. 精确率=分类正确的正样本个数/分类器判定为正样本的样本个数
3. 召回率=分类正确的正样本个数/真正的证样本的比率
4. 精确率与召回率较难兼顾,因为要提高精确率会导致召回率降低。
5. 可用P-R曲线的整体表现才能对模型进行全面评估,不能只看某个点对应的P-R值。
6. 此外F1 score和ROC也可以评估模型的性能。
Q10 平方根误差的意外
1 RMSE常被用来评估模型的好坏,但若有离群点会造成RMSE指标变的很差。
2 如何解决离群值的问题
2.1 若离群值认定为”噪音点”,则过滤掉。
2.2 若离群值认定为”非噪音”,建模就要考虑进去
2.3 找一个更合适的指标来评估此模型,如平均绝对百分比误差(MAPE),MAPE将每个点的误差进行归一化,降低了个别离群点带来的绝对误差的影响。
Q11 什么是ROC曲线
1. ROC曲线是Receiver Operating Characteristic Curve的简称,中文为”受试者工作特征曲线’,源于军事领域。
2. ROC曲线的横坐标为假阳性率(False Positive Rate, FPR);纵坐标为真阳性率(True Positive Rate, TPR)。
Q12 如何绘制ROC曲线?
ROC是通过不断移动分类器的cut off point来生成曲线上的一组关键点。
Q13 如何计算AUC?
AUC是指ROC曲线下的面积。,AUC越大,模型效能越好。
Q14 ROC曲线与P-R曲线有何差异?
1. ROC曲线的形状,不随着正负样本的分布变化而改变。
2. P-R曲线,会因为正负样本分布变化而改变。但若想看到模型在特定数据集上的表现,P-R曲线更好用。