全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1110 1
2020-12-22
Python的隐藏宝石–使Data Science步履维艰的图书馆
随着数据科学界的发展,Python被认为是开发和研究的前沿和中心。Python拥有活跃的社区来支持它,并提供简单的开源软件包(例如Pandas,Tensorflow和Keras),因此Python正确地吸引了全球的开发人员,并确立了自己的数据科学语言地位。
但是,大多数初学者会错过的是鲜为人知的Python库,它们的方法和Python函数,它们可以使我们的生活变得更加轻松,代码也更加高效。
因此,这里有10个数据科学图书馆可以帮助您获得优势:
熊猫_ml
Pandas_ml是一个库,结合了熊猫的预处理和数据处理能力,可靠的机器学习算法和sklearn的性能指标,梯度提升了xgboost的强度以及matplotlib的可视化效果。它基本上将最可靠的python库组合到一个程序包中,该程序包易于使用并且总是非常方便。因此,请继续阅读文档,并开始探索这一惊人的资源。
数据科学图书馆
短跑
Dash建立在Plotly.js,React和Flask的基础上,可帮助轻松使用具有精美的绘图图形和可视化效果的仪表板。它可用于制作交互式ML和数据科学Web应用程序,该应用程序可用于对数据执行各种功能,处理数据和分析结果,以及在交互式Web平台上实际部署时查看不同的ML模型。
如果您热爱数据科学并希望以简洁明了的方式展示您的工作,但又没有时间或兴趣来学习Web开发,那么此软件包适合您。使用python创建Web应用程序从未如此简单,请立即查看Dash制作自己的Data Science Web应用程序!
数据科学图书馆
数据科学图书馆
黄砖
如果您遇到任何机器学习问题,您可能都知道选择功能,调整超参数,选择最佳模型以及了解性能指标有多么困难。好了,您的烦恼日子已经过去了,因为YellowBrick就是解决该问题的工具。
该库建立在scikit-learn和matplotlib的基础上,并提供了广泛的可视化解决方案,以解决诸如基于重要性的特征选择,调整模型的超参数以及基于性能指标使用各种可视化方法比较模型的性能等问题。该库可帮助您解释模型的性能,并使其更易于改进。
达卜
Dabl –数据分析基准库是另一个令人惊叹的python库,可用于自动执行数据科学管道的多个步骤。Dabl可用于执行数据分析,使已知的80%的Data Science自动化,包括数据预处理,数据清理和功能工程。
该库还包含强大的工具,可为有监督的学习问题(例如分类或回归)构建基线模型,非常适合初学者尝试机器学习。使用dabl.clean和dabl.SimpleClassifier等简单方法,dabl可以更轻松地构建机器学习管道,并节省时间和资源。因此,如果您有最后期限,或者只是想在空闲时间尝试ML,请尝试Dabl!
PyCaret
PyCaret是一个低代码的python包装器,它围绕着多个数据科学和机器学习库,例如scikit-learn和xgboost。它提供了一个易于使用的工具,可以在数据科学管道中进行有效的实验,并可以节省大量时间!PyCaret可用于轻松地对机器学习管道进行编码,以立即解决可用于开发的分类和回归问题。PyCaret是python中“聪明而不是辛苦”的库。因此,使用PyCaret可以节省一些时间和大量研究工作。
数据科学图书馆
数据科学图书馆
预言家
Prophet是来自Facebook的开源时间序列预测库。它使用可分解的回归模型,该模型基于趋势,季节性和假日这三个模型,这使先知成为解决时序问题的强大工具。它准确,快速,并且可以通过提供季节性,假期,变更点和时间序列表示的增长类型来针对特定问题进行调整。先知是解决预测问题的快速可靠的方法。
热通量
PyFlux是用于时间序列预测的数据科学库之一。与Prophet不同,该数据库具有多个供用户选择的内置不同已试和经过测试的时间序列预测模型的选项,该库可让您调用不同的模型,调整参数并查看适合您数据的模型。Pyflux包括受信任的模型(例如ARIMA,Garch等)以及一系列推理选项。如果您正在寻找一种比较时间序列预测问题的不同模型的简便方法,请务必查看Pyflux。
类别编码器
如果您处理过多类分类问题,那么您可能知道类别编码的耗时,这就是类别编码器发挥作用的地方。这是一种高效的分类变量编码方法,该库由可在您的数据科学管道内使用的转换器组成,并具有多种方法,例如受信任的一键编码。因此,下次您遇到带有多个分类变量的ML问题时,请记住使用Category-encoders。
惊喜
惊喜惊喜!有一个图书馆可以自动建立推荐系统!在以受众为目标的广告和内容的数据科学领域,推荐系统的问题范围已增长了四倍。Surprise充分利用了这一事实,并为您提供了一个受scikit学习启发的解决方案来构建推荐系统。它支持诸如train_test_split和cross_validate之类的方法,这些方法使推荐系统的管道更加容易。因此,下次您需要构建推荐系统时,请不要忘记使用Surprise!
FlashText
如果您玩过NLP,您可能会知道一些关键字和短语会如何影响整个模型的结果。FlashText是易于使用的库,可以解决此问题。FlashText的创建目的仅在于查找和替换关键字,它被证明在NLP任务(如摘要,主题建模,文档分类等)中非常有效且很有帮助。因此,下次需要操纵文本数据时,请确保使用FlashText获得超快速和高效的结果!
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2024-5-14 10:28:42
thanks for sharing
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群