大规模数据科学：能做到吗？

885

收藏 2022-06-01

“当使用 SQL 处理大量数据的业务分析师让位于数据科学家时，这种变化就会发生，这将涉及更复杂的分析、预测建模、回归和贝叶斯分类。那些大规模的东西现在在任何人的引擎上都不能很好地工作。如果你想对大数据进行复杂的分析，你现在就遇到了一个大问题。”

如果你看看现有统计环境使用 R、Python、Java、Julia 和其他语言的局限性，我认为他是绝对正确的。一旦数据科学家必须处理更大的卷，这些工具不够强大和可扩展。这导致数据采样或聚合以使统计算法完全适用。

分析驱动业务
在当今的数字世界中，数据已成为企业寻求保持竞争优势的关键成功因素，并且有许多示例说明公司如何找到将数据货币化并相应地获取价值的智能方法。

一方面，许多公司使用数据分析来精简生产线、优化营销渠道、最大限度地降低物流成本并提高客户保留率。这些用例通常在运营 BI 的总称下进行描述，其中决策基于数据以改善公司的内部运营，无论是制造业公司还是电子商务平台。

另一方面，在过去的几年里，出现了一系列新的面向服务的公司，它们的收入模式完全依赖于数据分析。这些数据驱动的业务对新技术的持续发展做出了很大贡献，这些新技术使处理和分析大量数据以找到正确的见解成为可能。这些技术利用得越好，它们的附加值就越高，对他们的业务成功也就越有利。事实上，没有数据和数据分析，他们就没有生意。

数据科学——炒作还是一直存在？
在我看来，围绕数据科学家的新时代有太多的讨论。十年前，人们简单地称之为数据挖掘，描述了类似的技能和方法。实际发生变化的是，企业现在面临的是新型数据源，例如移动设备和数据驱动的应用程序，而不是统计方法。我在帖子中详细描述了这个想法大数据：用单个 D 代替 V.

但是，当然，你不能否认这些数据处理器的重要性已经显着增加。挖掘数据山的艺术（或者我应该说“潜入数据湖”）找到适当的见解和模型，然后为紧迫的业务关键问题找到正确的答案，这些天来已经变得非常流行。

“大数据科学”的新架构
我们一直在努力开发智能解决方案来应对这一挑战。想象一下，可以直接在存储数据的地方对非常大的数据集使用原始数据和智能统计模型。在内存中处理数据以实现最佳性能的地方，所有数据都分布在强大的 MPP 服务器集群中，您现在可以“安装”您选择的编程语言。

听起来很牵强？如果您不相信，那么我强烈建议您看看全新的数据库内分析编程平台，它深度集成在我们的并行加载…内存引擎中，并且可以通过使用几乎任何编程语言和统计库进行扩展。

相关帖子DA内容精选