越来越多的公司专注于寻找连接新的和有价值的数据源的方法,以增强他们的分析能力、丰富他们的模型或为他们的业务部门提供更多的洞察力。
由于对新数据源的需求增加,公司也以不同的方式看待其内部数据。有权访问有价值数据集的组织开始探索机会,让他们在业务的四个围墙之外共享数据并从中获利。
数据共享格局是什么样的?
人们越来越关注数据共享。它的重要性与数据发现的重要性密切相关,而数据发现已经成为人们关注的焦点已有数月之久。Venturebeat 专门将数据共享作为其2021 年机器学习、人工智能和数据景观的一部分,并强调了该领域的一些关键发展:
谷歌于 2021 年 5 月推出了Analytics Hub,作为组合数据集和共享数据、仪表板和机器学习模型的平台。谷歌还推出了Datashare,为金融服务开发了更多,并基于 Analytics Hub。
Databricks在 Google 发布的同一天宣布了Delta Sharing 。Delta Sharing 是一种用于跨组织安全数据共享的开源协议。
2021 年 6 月,Snowflake 开放了对其数据市场的广泛访问,以及安全的数据共享功能。
ThinkData 一直将数据共享作为我们技术的基石,最近,我们在组织内外安全共享数据的能力有所提高(您可以在此处阅读有关我们如何从合作伙伴数据库中支持数据虚拟化的更多信息)。
企业不断变化的需求
在共享数据时需要考虑一些事项。选择让谁使用您的数据以及用于什么目的,是组织应该考虑的一个战略问题。但是,除了关于谁将使用您的数据以及为什么使用您的数据的规则之外,共享数据还涉及技术性而非法律性质的后勤问题。
当涉及到数据时——无论是传入还是传出、公共或私有、核心流程的一部分还是实验的一小部分——你如何连接它通常与为什么连接它一样重要。对于希望从数据中获得更多收益的现代公司而言,选择部署数据目录并不意味着您必须移动数据。允许您组织、发现、共享和货币化数据的平台的好处不能以将数据库迁移到公共云为代价。
发现和使用新数据的价值是明确的,但组织应该共享和接收数据的过程却不明确。
记忆棒不会削减它,那么一个好的共享解决方案是什么样的?
什么是所有者定义的访问权限?
通常,当组织想要共享他们拥有的数据时,他们必须对数据集进行切片和切块以删除敏感信息或创建数据集的面向客户的副本。除了构建数据集的客户端友好版本的开销之外,从数据治理的角度来看,这是一种不好的做法。
制作和分发数据集的副本为数据和数据处理每次出错创造了一种新的方式,并为不一致、错误和安全问题开辟了可能性。如果您想为十个不同的用例将数据集共享给十个不同的人,那么您每次都在重复工作并增加风险。
一个好的数据共享解决方案可以让数据所有者在数据集上创建行和列级别的权限,创建一个主文件的自定义视图,确保所有数据共享仍然汇总到一个单一的事实来源。
一致且可配置的元数据
大多数数据集并不是为面向消费者而构建的。如果数据是作为核心业务流程的副产品生成的,那么它可能特定于一个非常具体的用例,可能不会由想要使用数据的最终用户共享。
元数据是让我们有效理解和使用数据的关键。无论是描述性的(告诉我们谁创建了数据以及我们应该如何解释它)还是管理性的(声明谁拥有它以及如何使用它),附加和维护高质量的元数据是确保任何人都了解如何使用数据的最有效方法他们有权访问的数据。
数据共享平台的五个关键组成部分
在 ThinkData 平台中构建自定义元数据模板。这些模板可以添加到数据目录中的任何数据集中。
应该如何安全地共享数据?
这应该是不费吹灰之力,但您可能会惊讶有多少组织仍在通过电子邮件将电子表格从一层发送到下一层。如果您正在共享开放数据,您可能不必担心数据安全性,但如果数据甚至是中等敏感(更不用说有价值),您将需要确保您有办法准确追踪它的位置去。
确保通过具有适当数据保护措施的服务交付数据非常重要,确保交付可靠且稳定将增加信任。
这包括内部共享,但是组织之间甚至部门之间的数据共享呢?
从历史上看,如果您将数据提供给另一个业务部门,这是从一个黑匣子到另一个黑匣子的交易。但是,如果您是一个对谁可以使用数据有限制的组织,您需要知道哪些用户正在连接到数据集。一个好的数据共享平台不仅应该让您控制数据流,还应该让您深入了解用户是如何连接到它的,以及何时连接到它。
支持本地和公共云
大多数现代数据共享计划都是专门为公共云设计的,这不仅限制了谁可以利用它们,而且还增加了提供商和消费者的支出,因为他们使用更多的存储空间来访问共享给他们的所有数据。
现实情况是,任何处于数据驱动阶段的现代化公司都需要尽可能少地破坏其标准操作程序的系统和基础设施。许多共享解决方案和传统数据目录的问题之一是无法实现向公共云的主要迁移步骤。对于具有关键任务或敏感数据和事务性工作负载的组织,对本地数据中心的细粒度控制始终是必要的。
即使对于那些愿意迁移到公共云的组织来说,也有数英里的法律和实际考虑使该过程停止,就在他们正处于尝试现代化的过程中。跨国金融机构不可能花费几个月的时间将其数据物理迁移到云中。
无论您的数据库处于何种状态,您都应该能够安全可靠地提供对数据所在位置的访问权限,而无需将其迁移到公共云或创建不必要的副本。
一种发现新数据的机制
数据市场的兴起表明,大多数组织强烈需要利用一种解决方案来帮助他们找到并连接到位于其业务四墙之外的数据。
然而,数据市场经常失败的地方在于它们提供了一种购物体验,而不是一种消费模式。从历史上看,数据市场一直是一个让用户能够找到数据的地方,但不是一个让他们可以连接到数据的机制,这有点像让某人买衣服但不让他们试穿。
出于这种需求,一种新的数据共享模式应运而生,Snowflake 去年推出了 Snowflake 数据市场作为用户可以双边共享数据到彼此帐户的地方,引起了轰动。
此模型在公共云中运行良好,在新的云区域中创建数据集相对容易,但有点笨拙(在每个云区域中重新创建数据会增加流程的大量开销),并且还会产生失控的成本如果您不小心,则用于计算和存储。
ThinkData 平台允许任何组织跨任何来源一致地利用数据,并以标准方式直接交付。ThinkData Marketplace既是可用公共数据领域的店面,也是数据提供者可以与数据购买者联系的中心枢纽。
ThinkData 平台提供了一系列消费模型。通过按需数据产品化,您可以轻松地将公共数据资产配置为理想的格式和架构。通过数据虚拟化,您可以确保即时数据共享,而不会引发数据仓库和安全方面的问题。ThinkData Marketplace 提供了一种数据消费模型,使渴望数据的组织不仅能够发现多样化的数据,而且能够快速有效地开始使用新的数据源。
引入低迁移数据共享
组织需要一种无需先移动数据即可共享数据的方式。
数据虚拟化在这里提供了一个解决方案,因为它允许用户查看来自外部仓库的数据以及来自其他来源的数据,而无需移动或复制它。
数据共享平台的五个关键组成部分
ThinkData 平台为希望将治理、元数据管理和数据共享应用于其数据而不将其从其所在位置移动的组织实现数据虚拟化。通过直接从仓库获取数据并通过平台 UI 提供数据,我们让用户获得了数据目录的所有好处,而无需大规模迁移的操作障碍(和成本)。
如果您想了解有关数据共享的更多信息,请观看我们的网络研讨会,了解在您的团队和个人之间分发数据是多么容易。我们的平台超越了数据目录提供的传统发现和治理。
编辑推荐
1、
2022年300个以上最佳免费数据科学课程
2、
大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、
机器学习模型方法总结
4、
历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、
机器学习如何应用于商业场景?三个真实的商业项目
6、
数据工作者的自我修养 | 哪些技能是必不可少的?
7、
《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、
文本挖掘常用的107个语料库
9、
一图读懂“东数西算”工程
10、
零基础转行数据分析,看这篇文章就够了
DA内容精选