数据网格是一种架构范式,它可以大规模地展示分析数据,快速释放对越来越多分布式域数据集的访问权限,以实现
机器学习、分析或整个组织中的数据密集型应用程序等消费场景的激增。它解决了传统集中式数据湖或数据平台架构的标准故障模式,从湖或其前身数据仓库的集中式范式转变。
数据网格转向借鉴现代分布式架构的范式:将域视为首要关注点,应用平台思维创建自助数据基础设施,将数据视为产品,并实施开放标准化以实现可互操作的生态系统分布式数据产品。数据网格采集需要非常高水平的基础设施配置自动化,实现自助服务基础设施。每个数据产品团队都应该设法自主提供所需的东西。
使数据网格平台成功的一个关键点是联合计算治理,它通过全球标准化提供互操作性。“联合计算治理”是一组数据产品所有者,其任务是制定规则并简化对此类法规的符合性。由“联合计算治理”决定的内容应遵循 DevOps 和基础设施即代码行为。
借助集中式数据仓库,数据网格解决了这些挑战;
缺乏所有权
缺乏质量:数据质量差,从而使基础架构团队能够了解他们正在处理的数据
组织规模化:业务或组织规模化,从而使中心团队成为中心点。
数据基础设施是数据网格的另一个组成部分。数据基础设施需要提供对数据、其存储、管道和数据目录的访问控制。数据基础架构的主要目标是避免组织中的任何数据重复。每个数据产品团队都专注于更快、更独立地构建自己的数据产品。这样,数据基础设施平台就可以兼容不同的数据域类型。
为什么要使用数据网格?
为数据所有者提供更大的自主权和灵活性,促进更大的数据实验和创新,同时减轻数据团队通过单个管道满足每个数据消费者需求的负担。
数据网格™自助式基础设施即平台为数据团队提供了一种通用的、与领域无关的、通常是自动化的数据标准化、数据产品谱系、数据产品监控、警报、日志记录和 数据质量指标的方法。
与传统数据架构相比,提供竞争优势,传统数据架构通常因投资者和消费者之间缺乏数据标准化而受阻。
结论
数据网格可帮助组织摆脱单一数据架构的分析和消费限制,并连接孤立的数据。大规模启用 ML 和自动化分析。数据网格允许公司以数据为驱动,放弃数据湖和数据仓库。它用数据访问、控制和连接的力量取代了它们。
编辑推荐
1、
2022年300个以上最佳免费数据科学课程
2、
大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、
机器学习模型方法总结
4、
历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、
机器学习如何应用于商业场景?三个真实的商业项目
6、
数据工作者的自我修养 | 哪些技能是必不可少的?
7、
《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、
文本挖掘常用的107个语料库
9、
一图读懂“东数西算”工程
10、
零基础转行数据分析,看这篇文章就够了
DA内容精选