全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1111 0
2020-08-05
18机器学习从业者的便捷资源
机器学习是一个涵盖广泛领域的多元化领域,并影响了许多垂直领域。它能够处理语言和图像处理,异常检测,信用评分情感分析,预测以及其他许多下游任务的任务。在这方面的工作是熟练的开发人员;必须能够从许多相邻领域(例如数学,统计学,编程和最重要的常识)中汲取,借鉴和窃取。我曾经从众多工具中获得了巨大的收益,这些工具可将复杂的任务分解为更小,更易于管理的组件。事实证明,开发和训练模型仅花费项目工期的一小部分。大部分时间和资源都用于数据采集,准备,超参数调整,优化和模型部署。我已经成功建立了系统的知识库,该知识库已帮助我的团队解决了一些常见而又艰巨的挑战。以下是尝试识别其中的一些尝试:
建立有效且可靠的端到端深度学习管道可能非常具有挑战性。幸运的是,有无数种“工作流管理”工具可以大大减轻这项任务的难度。 Jenkins,Airflow和KubeFlow仅举几例。尽管每个人都有优点和缺点,但我最喜欢的是Airflow。幸运的是,有很多关于Airflow的在线教程,但我最喜欢的是以下Tuan Vu在YouTube上发布的视频系列
对于任何认真的ML从业人员来说,认识功能工程的重要性并不需要太多。在数据集中分析和转换要素列所花费的时间将显着改善结果。尽管功能工程至关重要,但它可能很复杂且很耗时。名为Automunge的用于要素工程和转换的软件包的功能给我绝对的印象。该工具可以处理复杂的数字和分类转换,自定义填充和“功能重要性分析”,过采样等等。真正杰出
如果您是Jupyter笔记本电脑的重度用户,并且想扩大对它们的依赖,请访问造纸厂。该环境允许对笔记本进行参数化,并允许通过Python API和CLI执行各种例程。p apermill可以帮助你存储在笔记本电脑中的多个位置,包括AWS S3,Azure的数据斑点,和Azure的数据湖泊。最后但并非最不重要的一点是,papermill支持编写单元测试所需的强大功能
尽管我还不是用户,但是我听说过有关Deequ的好评。 Deequ可以看作是测试大型数据集的工具。它是由Amazon开发的开源工具,旨在为预定用于生产的大型数据集生成数据质量指标。这是根据用户设置的质量约束来完成的。有效使用该工具将消除开发用于手动执行检查和平衡的代码的需要。该工具在Apache Spark上实现,旨在与大型数据集一起扩展
如果您参与语言处理。您会发现“ TheSuper Duper NLP Repo”网站非常宝贵。如果在那找不到东西;很有可能您不需要它们。
我已经使用Docker很长时间了,坦率地说,我无法想象在可用性之前如何完成工作。我最近浏览了以下视频,并在细微差别方面学到了很多特别的东西:(需要注册)
如何开始使用Docker
使用Docker Compose简化所有事情
掌舵
将多容器应用程序构建和部署到AWS
他们说,熊猫功能强大,经过验证,快速且易于使用。我同意前三个。那应该可以解释为什么我总是时刻准备好以下备忘单。
像特征工程一样,在机器学习管道的开发中,超参数调整是关键且资源密集的阶段。有许多用于超参数优化的方法,例如网格,随机,手动和自动搜索(使用贝叶斯优化)。如果您选择采用自动化方法,建议您评估Ax(自适应实验平台)。该软件包由Facebook开发,非常成熟且易于使用
如果您的深度学习是第一次开始,那么请;请放心,您做错了什么。如果您正在寻找对模型进行故障排除的方法,我发现以下列表将非常有用:
神经网络无法正常工作的37个原因
我是Tensorflow的早期用户,并没有因为说Tensorflow是“ Google的人类复仇” 而大为惊讶。我很高兴地指出,一旦我开始使用2.0版本,我对该框架的看法已经完全改变(更好)。非常非常强大且易于使用。
如果您发现难以找到适合运行实验的数据集,建议您查看Google的数据集搜索引擎
开发,训练和调整机器学习模型只是开始。在将模型部署到现实世界之前,需要严格的测试制度。
如果您不熟悉语言处理领域,那么您将在学习开源工具(例如SpaCy,NLTK,Flair和StanfordNLP)中发现巨大的价值。
我想向克里斯·弗雷格利大声疾呼。Chris是PipelineAI的负责人,最近加入了AWS机器学习团队。我从未见过任何人具备构建端到端AI管道所需的基本知识。他对多种工具和框架非常熟悉,并以感染性的热情和语气展现了他的技术知识。他每月举办一次免费的超级讲习班。
称其为业障或运气不好,但是我很少能够处理一个好的,对称的,平衡的数据集。当我不得不应对不平衡的数据集时,我发现以下资源很有用:
不平衡分类项目的循序渐进框架
了解不平衡分类的算法
卷积神经网络训练数据不平衡的影响
当训练深度网络时,权重归一化是一项至关重要的任务。它具有许多优点,例如:
通过提高学习率来加快培训速度
具有“正则化”效果
简化体重初始化
如果您像我一样,花了比您喜欢的更多钱购买基于云的GPU,请查看Google的Colab Pro。每月不到$ 10。您可以访问GPU / TPU和相当数量的内存以帮助进行原型制作
如果“模型可解释性”是您项目的首要要求,并且您正在考虑使用SHAP或LIME,则将发现以下摘要是有益的:
SHAP和LIME Python库:第1部分-出色的解释者,两者都有利弊
SHAP和LIME Python库:第2部分-使用SHAP和LIME

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群