18机器学习从业者的便捷资源

1111

收藏 2020-08-05

18机器学习从业者的便捷资源
机器学习是一个涵盖广泛领域的多元化领域，并影响了许多垂直领域。它能够处理语言和图像处理，异常检测，信用评分情感分析，预测以及其他许多下游任务的任务。在这方面的工作是熟练的开发人员；必须能够从许多相邻领域（例如数学，统计学，编程和最重要的常识）中汲取，借鉴和窃取。我曾经从众多工具中获得了巨大的收益，这些工具可将复杂的任务分解为更小，更易于管理的组件。事实证明，开发和训练模型仅花费项目工期的一小部分。大部分时间和资源都用于数据采集，准备，超参数调整，优化和模型部署。我已经成功建立了系统的知识库，该知识库已帮助我的团队解决了一些常见而又艰巨的挑战。以下是尝试识别其中的一些尝试：
建立有效且可靠的端到端深度学习管道可能非常具有挑战性。幸运的是，有无数种“工作流管理”工具可以大大减轻这项任务的难度。 Jenkins，Airflow和KubeFlow仅举几例。尽管每个人都有优点和缺点，但我最喜欢的是Airflow。幸运的是，有很多关于Airflow的在线教程，但我最喜欢的是以下Tuan Vu在YouTube上发布的视频系列
对于任何认真的ML从业人员来说，认识功能工程的重要性并不需要太多。在数据集中分析和转换要素列所花费的时间将显着改善结果。尽管功能工程至关重要，但它可能很复杂且很耗时。名为Automunge的用于要素工程和转换的软件包的功能给我绝对的印象。该工具可以处理复杂的数字和分类转换，自定义填充和“功能重要性分析”，过采样等等。真正杰出
如果您是Jupyter笔记本电脑的重度用户，并且想扩大对它们的依赖，请访问造纸厂。该环境允许对笔记本进行参数化，并允许通过Python API和CLI执行各种例程。p apermill可以帮助你存储在笔记本电脑中的多个位置，包括AWS S3，Azure的数据斑点，和Azure的数据湖泊。最后但并非最不重要的一点是，papermill支持编写单元测试所需的强大功能
尽管我还不是用户，但是我听说过有关Deequ的好评。 Deequ可以看作是测试大型数据集的工具。它是由Amazon开发的开源工具，旨在为预定用于生产的大型数据集生成数据质量指标。这是根据用户设置的质量约束来完成的。有效使用该工具将消除开发用于手动执行检查和平衡的代码的需要。该工具在Apache Spark上实现，旨在与大型数据集一起扩展
如果您参与语言处理。您会发现“ TheSuper Duper NLP Repo”网站非常宝贵。如果在那找不到东西；很有可能您不需要它们。
我已经使用Docker很长时间了，坦率地说，我无法想象在可用性之前如何完成工作。我最近浏览了以下视频，并在细微差别方面学到了很多特别的东西：（需要注册）
如何开始使用Docker
使用Docker Compose简化所有事情
掌舵
将多容器应用程序构建和部署到AWS
他们说，熊猫功能强大，经过验证，快速且易于使用。我同意前三个。那应该可以解释为什么我总是时刻准备好以下备忘单。
像特征工程一样，在机器学习管道的开发中，超参数调整是关键且资源密集的阶段。有许多用于超参数优化的方法，例如网格，随机，手动和自动搜索（使用贝叶斯优化）。如果您选择采用自动化方法，建议您评估Ax（自适应实验平台）。该软件包由Facebook开发，非常成熟且易于使用
如果您的深度学习是第一次开始，那么请；请放心，您做错了什么。如果您正在寻找对模型进行故障排除的方法，我发现以下列表将非常有用：
神经网络无法正常工作的37个原因
我是Tensorflow的早期用户，并没有因为说Tensorflow是“ Google的人类复仇” 而大为惊讶。我很高兴地指出，一旦我开始使用2.0版本，我对该框架的看法已经完全改变（更好）。非常非常强大且易于使用。
如果您发现难以找到适合运行实验的数据集，建议您查看Google的数据集搜索引擎
开发，训练和调整机器学习模型只是开始。在将模型部署到现实世界之前，需要严格的测试制度。
如果您不熟悉语言处理领域，那么您将在学习开源工具（例如SpaCy，NLTK，Flair和StanfordNLP）中发现巨大的价值。
我想向克里斯·弗雷格利大声疾呼。Chris是PipelineAI的负责人，最近加入了AWS机器学习团队。我从未见过任何人具备构建端到端AI管道所需的基本知识。他对多种工具和框架非常熟悉，并以感染性的热情和语气展现了他的技术知识。他每月举办一次免费的超级讲习班。
称其为业障或运气不好，但是我很少能够处理一个好的，对称的，平衡的数据集。当我不得不应对不平衡的数据集时，我发现以下资源很有用：
不平衡分类项目的循序渐进框架
了解不平衡分类的算法
卷积神经网络训练数据不平衡的影响
当训练深度网络时，权重归一化是一项至关重要的任务。它具有许多优点，例如：
通过提高学习率来加快培训速度
具有“正则化”效果
简化体重初始化
如果您像我一样，花了比您喜欢的更多钱购买基于云的GPU，请查看Google的Colab Pro。每月不到$ 10。您可以访问GPU / TPU和相当数量的内存以帮助进行原型制作
如果“模型可解释性”是您项目的首要要求，并且您正在考虑使用SHAP或LIME，则将发现以下摘要是有益的：
SHAP和LIME Python库：第1部分-出色的解释者，两者都有利弊
SHAP和LIME Python库：第2部分-使用SHAP和LIME

关注 CDA 人工智能学院，回复“录播”获取更多人工智能精选直播视频！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群