Python中的完整
机器学习项目:第一部分
阅读一本数据科学书籍或学习一门课程,感觉就像是拥有了各个部分,但并不十分了解如何将它们组合在一起。迈出下一步并解决完整的机器学习问题可能很艰巨,但是保留并完成第一个项目将使您有信心解决任何数据科学问题。本系列文章将通过一个完整的机器学习解决方案和一个真实的数据集,让您了解所有部分如何组合在一起。
我们将逐步遵循一般的机器学习工作流程:
数据清理和格式化
探索性
数据分析
特征工程和选择
在性能指标上比较几种机器学习模型
在最佳模型上执行超参数调整
评估测试集上的最佳模型
解释模型结果
得出结论并记录工作
在此过程中,我们将看到每个步骤如何流入下一个步骤以及如何在Python中专门实现每个部分。完整的项目可在GitHub上找到,第一个笔记本在这里。第一篇文章将介绍步骤1-3,其余内容将在后续文章中讨论。
(请注意,这个问题最初是作为我在启动时的工作分配给我的。在完成工作之后,我被提供了工作,但是公司的CTO辞职了,他们没有。无法招募任何新员工。我想这就是创业现场的情况!)
问题定义
获得编码之前的第一步是了解我们要解决的问题和可用数据。在此项目中,我们将使用纽约市公开提供的建筑能耗数据。
目的是使用能源数据来建立一个模型,该模型可以预测建筑物的能源之星得分,并解释结果以找出影响得分的因素。
数据包括能源之星评分,这使它成为有监督的回归机器学习任务:
监督下:我们可以访问功能和目标,并且我们的目标是训练一个可以学习两者之间映射关系的模型
回归:能源之星得分是一个连续变量
我们希望开发一个既准确的模型,也可以预测接近真实值的能源之星评分,并且可以解释,我们可以理解模型的预测。一旦我们了解了目标,就可以在研究数据和构建模型时使用它来指导我们的决策。
数据清理
与大多数数据科学课程的想法相反,并不是每个数据集都是一组完美的观察结果,没有缺失值或异常(查看mtcar和虹膜数据集)。现实世界中的数据很乱,这意味着我们甚至需要开始分析之前就需要将其清理并整理为可接受的格式。数据清理是大多数实际数据科学问题中不容忽视的但必不可少的部分。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!