【学习笔记】2020/01/03 《百面机器学习-算法工程师带你去面试》读书笔记《N ...

702

收藏 2020-01-03

2020/01/03
《百面机器学习-算法工程师带你去面试》读书笔记
《No.3: p22~p32》第二章模型评估

Q8 评估指标的局限性(准确率的局限性): 分类准确率高达95%，但使用时还是分类错误，原因为何?
1. 准确率=正确分类的样本数/总样本数
2. 准确率有名弦的缺陷，当负样本占99%的时候，模型把所有样本都预测为负样本也可以获得99%的准确率。所以当类别样本比率不均衡时，占比较大的类别会成为影响准确率的重要因素。可改用平均准确率(每个类别夏的样本准确率的算术平均)可改善此问题

Q9 准确率与召回率的权衡
1. 搜索排序模型返回的Top 5的精确度非常高，但实际使用，用户还是找不到想要的视频?
2. 精确率=分类正确的正样本个数/分类器判定为正样本的样本个数
3. 召回率=分类正确的正样本个数/真正的证样本的比率
4. 精确率与召回率较难兼顾，因为要提高精确率会导致召回率降低。
5. 可用P-R曲线的整体表现才能对模型进行全面评估，不能只看某个点对应的P-R值。
6. 此外F1 score和ROC也可以评估模型的性能。

Q10 平方根误差的意外

1 RMSE常被用来评估模型的好坏，但若有离群点会造成RMSE指标变的很差。
2 如何解决离群值的问题
2.1 若离群值认定为”噪音点”，则过滤掉。
2.2 若离群值认定为”非噪音”，建模就要考虑进去
2.3 找一个更合适的指标来评估此模型，如平均绝对百分比误差(MAPE)，MAPE将每个点的误差进行归一化，降低了个别离群点带来的绝对误差的影响。

Q11 什么是ROC曲线

1. ROC曲线是Receiver Operating Characteristic Curve的简称，中文为”受试者工作特征曲线’，源于军事领域。
2. ROC曲线的横坐标为假阳性率(False Positive Rate, FPR)；纵坐标为真阳性率(True Positive Rate, TPR)。
Q12 如何绘制ROC曲线?
ROC是通过不断移动分类器的cut off point来生成曲线上的一组关键点。

Q13 如何计算AUC?
AUC是指ROC曲线下的面积。，AUC越大，模型效能越好。

Q14 ROC曲线与P-R曲线有何差异?
1. ROC曲线的形状，不随着正负样本的分布变化而改变。
2. P-R曲线，会因为正负样本分布变化而改变。但若想看到模型在特定数据集上的表现，P-R曲线更好用。