全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
401 0
2022-06-21
在过去十年中,由于大数据、分布式数据处理和易于扩展的云基础设施等进步,实时分析在多个行业中成为现实。

尽管电子商务和科技公司由于能够将大部分 IT 基础设施保留在云中而继续比任何其他行业更快地从实时分析中获益,但工业制造公司在实现实时分析方面继续面临挑战到期。典型的工厂必须拥有 MES(制造执行系统)和边缘设备应用程序等本地系统,以满足高可用性和数据安全要求。因此混合云(本地+云)被广泛接受为智能工厂的参考架构。这就是为什么所有云供应商(例如 AWS、Azure 和 Google Cloud)都提供基于 IoT 的 cloudlet 解决方案,以将数据从本地 IT 应用程序流式传输到云。   

在混合云中,数据传输的距离比在云原生基础架构中更远,从而增加了实时分析应用程序的整体系统延迟。混合云实现实时分析的主要挑战可分为三类:

网络速度:网络带宽决定了数据从本地边缘设备传输到云端的速度。在一家全球制造公司中,即使在给定工厂附近有可用的云区域,数据通常也必须从一个大陆传输到另一个大陆。当数据必须长距离传输时,流式基础设施或内存数据处理平台的好处是有限的。
计算能力。扩大本地数据中心的计算能力需要大量的资本支出和时间。如果智能工厂增加产量,数据量就会增加,并且本地基础设施对计算能力的需求也会增加。如果计算能力没有不断扩大,实时分析将继续是一个梦想。
可用性。大多数边缘设备数据需要大量准备,然后才能使数据可用于分析和发现有用的模式。因此,除了上述挑战之外,数据准备还会增加系统延迟。
以下是在混合云环境中创建实时分析的构建块。这些构建块消除或减少了上述挑战的影响。

准备靠近其来源的数据。数据准备最好在靠近数据源的地方进行。智能工厂中的典型边缘设备以固定时间间隔或连续流的形式生成小数据袋形式的数据。无论哪种方式,在固定的时间间隔内整合数据并在本地数据中心准备数据将在很大程度上有助于减少整体系统延迟。听起来好像我们正在引入另一个批处理层,这可能会增加整体系统延迟。但是,小批量准备数据并将其传输到云端会消除或减少集中式云数据湖的数据准备工作。在云端整合数据准备不仅会增加系统延迟,还会增加云端的计算成本。请注意,云中的存储成本更低,但计算成本更低。

格式化数据。大数据文件系统和云数据湖使用优化的列式数据格式高效工作。作为接近源的数据准备的一部分,每个数据包都可以在传输到云端之前转换为列格式。优化的格式将文件大小减少一半或四分之一。因此,可以在不到通常所需时间的一半时间内传输数据。

目录数据。数据目录(关于存储在分布式集群中的数据的元数据)使数据检索更加直接;就好像数据来自单个节点一样。当大部分数据准备工作在进入云之前进行时,一旦数据到达云数据湖,下游分析应用程序就可以立即使用数据。数据目录进一步简化了数据检索并提高了内存数据处理系统的效率。

能够处理各种工作负载。数据通常以多种方式使用——API、分布式查询引擎、可视化分析应用程序和机器学习。如果将数据复制到多个数据存储平台以处理这些种类繁多的工作负载,则会增加延迟。必须仔细选择数据存储以处理各种分析工作负载。

即使使用混合云基础架构,这些构建块也将帮助工业制造公司构建实时或接近实时的分析应用程序。

      相关帖子DA内容精选
  • 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群