了解和满足客户需求是业务成功的关键,而客户数据是建立成功的基础。访问和分析数据几乎总是依赖于数据工程师和其他 IT 人员,而决策者则等待获得洞察。跳过等待并将数据直接交付给最终用户的一种方法是创建内部数据即服务 (DaaS) 模型,无需 IT 人员协助即可访问企业数据,无论其位于何处.
数据即服务
根据DAMA DMBoK2,数据即服务有两种模型:一种模型使用来自公司外部的数据,第二种模型使用公司的内部数据,通过 IT 部门作为“服务”提供给内部数据消费者。外部 DaaS 使用供应商许可的数据,按需提供,而不是由许可组织存储和维护。这种类型的一个常见例子数据即服务包括有关通过证券交易所出售的证券和相关价格的信息。DaaS 的内部模型利用组织内部的“服务”概念,为各种功能、人员和运营系统提供公司自己的企业数据或数据服务。
丹尼尔纽曼,在福布斯的一篇题为数据即服务:商业的巨大机遇表示,大多数拥有现场数据存储和分析的公司“都难以跟上对数据驱动洞察力日益增长的需求。” 他说,DaaS 提供根据客户需求量身定制的数据流,节省宝贵的时间和精力。当公司能够以易于使用的格式访问他们需要的数据时,它可以更轻松地利用这些数据作为资产,并且更省时。
Tomer Shiran,联合创始人兼首席执行官小心, 说目标是让公司最终成为数据驱动的,努力实现“分析的圣杯”,无论数据有多大或它是什么系统,都可以随时询问数据的任何问题”Shiran 认为分析的可访问性应该类似于公用事业:“就像您可以接入电力或打开家里的水龙头并且您有水一样。你不必担心它。” 他说,现实情况是,公司并没有将所有数据集中在一个地方,因此他们远不能轻松访问和分析数据。
分散的数据和 IT 的负担
Shiran 说,考虑到许多公司将他们的数据视为他们的主要差异化资产,他们应该能够利用它,但对于大多数公司来说,这是不可能的。由于数据分散在多个不同的系统中,访问它以进行分析变得过于复杂和不堪重负,并且无法组织它并在其上运行查询的技能集。
今天的 IT 人员被迫将数据从湖中复制并移动到数据仓库、多维数据集、BI 提取和聚合表,以便获得足够的性能能够提出问题,Shiran 说。但这样做也大大缩小了可用于分析的数据范围。“尚未实现的目标是能够就所有数据提出问题,无论数据在哪里,并且仍然能得到极快的响应。”
他说,最终用户不理解或不关心 Oracle 数据库和 S3 上的 parquet 文件目录之间的区别。“唯一可行的方法是,如果你可以就数据所在的位置提出问题,而且越来越多地出现在数据湖存储中。”
对于业务端的用户来说,数据集就是一个数据集,他们只想轻松地添加新的源,并体验快速的响应时间,无论他们是在单个源还是跨多个源进行查询。“人们不想再通过旅行社了。他们想要独立并自由地快速行动”
工作场所已经发展到业务方面的分析师非常了解数据的使用并希望能够探索所有数据并提出自己的问题。“这些人不再希望早上只在办公桌上看到打印输出。他们想自己去做。”
Hadoop 和供应商锁定挑战
基于 Hadoop数据湖他说,最终让公司难以创建、维护和使用,因此从中获得最大价值的人是开发人员和技术人员。
“Dremio 一开始就认为,如果你可以从头开始,让查询数据湖存储和其他来源变得更加容易和快速,那将是神奇的。”
“白手起家”的心态让他们看到了利用行业当前技术趋势(例如云采用)的智慧,特别是在 AWS S3 等基于云的数据湖存储中登陆和存储所有类型数据的趋势和微软 ADLS。数据量的急剧增加意味着将其复制、转换和移动到数据仓库中变得越来越不实用。Shiran 说,所有公司,不仅仅是初创公司和科技公司,都将在很大程度上利用公共云,这一点开始变得清晰起来,因此他们希望在这一趋势的基础上再接再厉。
他们还希望采用一种开放的方法,让公司可以选择他们想要的云并在它们之间轻松迁移。“很多公司确实有多云战略。能够为您的本地数据湖和基于云的数据湖使用相同的技术同样重要。”
他们想要避免的一个问题是供应商锁定,这是他们在过去十年中从公司那里听到的一种趋势。他说,被锁定在特定供应商或特定类型的数据仓库中,成本飞涨,一直是客户的痛点。“作为一家公司,我们的重点一直是创新,让客户可以使用其他计算引擎和其他工具处理他们的数据。”
数据湖引擎
无论数据位于何处,现代系统都必须能够通过为用户请求提供快速、可访问的答案来支持数据独立性和创新。Dremio 将数据湖存储与其专用数据湖引擎,Shiran 说,为数据架构师提供灵活性和控制力,并为数据消费者提供自助服务。借助数据湖引擎,数据消费者可以直接对数据湖执行分析,并具有完全的交互性能。所有数据都保留在原位,因为数据湖引擎消除了数据复制和移动。
数据湖引擎为用户生成的语义层提供了一个集成的、可搜索的目录,该目录索引所有元数据,因此业务用户可以轻松理解他们的所有数据。它可以连接到任何 BI 或数据科学工具,看起来就像一个关系型数据库. 标准 SQL 虚拟上下文中的数据管理允许快速、轻松且经济高效地过滤、转换、连接和聚合来自一个或多个来源的数据,所有这些都无需 IT 和数据工程团队的参与。
数据架构师保持完全控制:可以屏蔽敏感数据,可以设置行和列级别的权限,基于角色的控制可确保顺利访问最终用户需要的任何内容。数据沿袭是内置的,在 Dremio 的数据图中维护数据源、虚拟数据集和查询之间的关系,准确显示每个数据集的来源。
Shiran 以皇家加勒比邮轮公司为例,该公司使用 DaaS 为其客户提供个性化体验。“他们在云中创建了一个非常现代的数据架构,在 Azure 上,并且他们将几十个不同系统中的数据输入 Azure Data Lake Storage,”他说,从物业管理到他们的赌场,再到他们的预订系统。
客户行为是在预订游轮之前和客户为他们的旅行购物时捕获的,这与他们在游轮上所做的信息以及客户在游轮后提供的反馈相结合。这种全面的数据收集过程可以更深入地了解他们的客户,例如,皇家加勒比可以向退休夫妇发送与他们发送给有四个小孩的家庭不同的有针对性的邮轮优惠。
巨变带来机遇
“由于公共云的兴起,以及由此产生的计算和存储分离,我们正处于巨大的变化之中,”Shiran 说。过去,使用 Hadoop 集群,计算在存储上运行,因为当时网络是最大的问题。“这是洗牌速度,我想知道我是否有足够的网络带宽来真正让这些大查询工作。” 现在有了云,网络不再是问题,而且因为存储是作为服务提供的,所以计算是分开的。“所以现在你看到了公司为这项工作选择最佳工具的机会。”
在一个面试在 Sourceforge 上,Shiran 表示,DaaS 是一种范式,可以让数据易于发现、管理、共享和分析,无论数据在哪里管理,无论它有多大,也无论使用什么工具进行分析或可视化。DaaS 将多个功能区域集成到一个可扩展的自助式解决方案中。通过采用 DaaS 范式,公司可以使他们的数据消费者更加自给自足和独立,同时使他们的数据工程师更有生产力。
“公司需要数据驱动才能在我们现在生活的世界中生存,但除非这很容易,否则这不会发生,”Shiran 说。
相关帖子DA内容精选
- 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
|