全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
927 0
2022-05-27
为即时数据访问提供单一位置的能力可能意味着业务连续性或关闭。许多国家在最近的全球危机中发现了这一点,因为各国需要知道进行的检测数量和感染率,以确定病毒的传播情况和隔离对象。不幸的是,所需的数据没有及时可用,以防止大范围的封锁,导致许多企业倒闭。同时,对即时集成关键数据的需求只会增加。

现在为发现和解决方案获取高质量数据是 Denodo 高级副总裁兼首席营销官 Ravi Shankar 的首要任务。在最近的一次 DATAVERSITY® 采访中,Shankar 解释了数据虚拟化技术如何发展并创建逻辑数据结构,将数据全部放在一个地方,并实现更好、更快的业务决策。

他描述了过去在物理上进行此操作的尝试以及由此产生的挑战。Shankar 建议了逻辑数据结构的必要特征以及如何数据虚拟化交付,将数据编织到一个地方并推动未来。

数据集成和物理平台
拉维·尚卡尔看过数据市场在过去的 30 年里,通过改进物理平台,从数据库开始,取得了长足的进步。尚卡尔指出:

“人们需要在一个地方分析和理解数据。数据库成为存储和查找所有这些信息的流行解决方案,而不是处理分散在不同位置的数据。”

随着对数据库的推动,出现了多个数据库和供应商来解决不同类型的业务问题。微软和甲骨文等公司以低成本销售数据库产品,超过了旧的解决方案。快进到 1990 年代。Shankar 说,业务需要将交易和运营数据库中的所有数据集成到一个位置。希望整合数据的公司推动了数据仓库概念。他说:“再一次,我们试图获得单一的信息来源,我们可以在其中进行分析。”

数据仓库变得广泛而多样化。结果,许多公司最终拥有了多个数据仓库。数据集市 (面向主题的存储库数据仓库中用于特定业务服务的管道信息)的出现,增加了数据仓库的供过于求。为了解决这个问题,数据仓库供应商推出了一个单一的企业数据仓库,并得到了一些采用。因此,数据仓库解决了将所有数据存放在一个位置以进行分析的问题,但它们仅限于结构化数据。

然而,在世纪之交,非结构化数据从社交媒体中涌现,并开始出现在云中。数据仓库技术无法处理这种非结构化数据。因此,“数据湖随着所需存储库的增长而增长,它可以以原始格式存储任何数据类型,并将数据的规范化留给访问时间,”Shankar 解释说。好吧,公司最终拥有多个数据湖(一个用于营销,一个用于销售等)。但今天,人们仍然倾向于集中所有数据。尚卡尔 说:

“一直需要将数据放在一个地方,因为它易于查找和使用。但是数据引力会将数据拉回不同的来源,因为随着业务的运营,数据会在那里不断更新。我假设源中数据的变化率,以及新数据类型的发明,远远超过了人类将它们全部集中到一个焦点的能力。”

拥有一个物理数据存储库一直不起作用。相反,他主张通过逻辑数据结构. 他加了:

“逻辑数据结构在将所有不同的数据编织在一起时变得越来越流行。将数据留在存储位置,并为业务提供统一视图。如果您尝试在存储库中复制和整合这些数据,则移动该数据需要时间并且存储成本更高。与此同时,数据会失去同步,需要修复并可供使用。这种方法是一种物理数据结构,不会立即提供信息。逻辑数据结构很有意义,可以更快地提供对源的实时访问。”

数据虚拟化和逻辑数据结构
根据 Shankar 的说法,逻辑数据结构依赖于三个特征:

物理位置不重要:逻辑数据结构可以连接不同位置的多个源。无论该数据位于云中、企业数据中心还是与第三方实体(例如供应商或供应商)一起,逻辑数据结构都可以将所有这些数据链接在一起。
数据格式不重要:逻辑数据结构解决方案专注于在一个视图中连接数据,无论是结构化的、非结构化的还是半结构化的。将数据仓库、XML 文档、电子邮件、Word 文档和 Hadoop 中的图片数据全部缝合在一起。
延迟无关紧要:数据可能是静态的,例如位于数据仓库中的记录,也可能是动态的,因为它从即时消息传递或实时视频中流出。逻辑数据结构需要在生成的任何时间范围内处理这两种类型的数据。
Shankar 将数据虚拟化视为将“不同的实时数据”编织在一起的数据抽象层。数据虚拟化使该数据层中的集成数据保持最新,并且用户可以在数据更新或源中的更改时实时访问。它提供了一个“跨多个消费应用程序的通用语义层”,并且:

“数据虚拟化层知道哪些数据驻留在哪里以及在哪里。该技术立即将它们全部组合成一个连贯的视图(例如,图表、表格或报告)。业务用户收到信息的那一刻,他或她就可以及时采取行动,比如联系最赚钱的客户并追加销售并改善这些用户的体验。”

数据虚拟化支持逻辑数据结构,独立于数据放置、类型以及输入和输出之间的延迟。Shankar 说(并且 Gartner 确认)数据虚拟化代表了一种更稳定的技术和增长最快的数据集成方式。许多公司利用数据虚拟化。但是,什么样的数据虚拟化解决方案能够以足够快的速度合并数据,让企业能够制定行动方案并成功实施呢?

快速执行的数据虚拟化产品
德诺多提供快速执行的数据虚拟化。公司的经验可以追溯到大约 20 年前,当时 CEO 和 CTO 发表了一篇引领潮流的研究论文。Gartner 将 Denodo 列为增长最快的数据集成中心。Shankar 解释说,由于数据虚拟化使用量的增加,公司已经“同比增长 50%”。但是 Shankar 和 Denodo 并没有满足于现状,尤其是在冠状病毒大流行情况迅速升级的情况下。

该公司发起了一项名为冠状病毒数据门户这是一个开放的协作平台,它利用数据虚拟化的力量来整合来自世界各地的各种 COVID-19 数据集,并为研究人员提供组合数据,以帮助加快解决这种致命疾病的速度。

他强调:

“速度仍然是交付数据的关键,尤其是实时数据。在 Hadoop 中拥有 10 亿条数据记录和在客户关系管理 (CRM) 数据库中拥有 2 亿条记录的人需要将它们实时结合起来。Denodo 拥有三层或四层性能优化技术来满足这一需求并让数据更快速地访问。”

Shankar 和 Denodo 目前在其产品中具有许多功能,包括:

动态查询优化:他们创新并实施了动态查询优化。根据 Shankar 的说法,该功能“在运行时计算系统上的计算负载,然后将工作转移到负担较轻的系统上,从而更快地搜索数据。” 当其他大多数数据虚拟化引擎都可以做静态优化时,Denodo 可以实时实现这个功能。
MPP 引擎: Denodo 的产品杠杆内存处理— 通过减少中央处理单元 (CPU) 的需求来提高算法的效率。由于 Hadoop 系统变得越来越流行,需要更多内存,Denodo 可以处理这个问题。
尚卡尔 说:

“在计算需要提取大量数据的情况下,我们将数据放入内存系统并在现场进行处理。Denodo 更快地返回数据。此外,我们系统中的缓存可以加速查询。”

其他功能包括:

汇总信息:它们包括通过汇总表快速获取汇总信息,从而加快查询速度。
通过 AI 和机器学习实现自动化: AI 和 ML 功能可以自动执行一些手动功能和重复性任务。“系统学习并提出更有效处理所需的资源,”Shankar 说。
添加数据目录:客户可以自助访问,通过数据目录进行数据分析、搜索并理解其含义。
使用大数据启用分析用例(数据科学家可以在其中一次搜索数据)是一项关键必要性。尚卡尔 说:

“我们将数据整合在一起,以便数据科学家构建成本和价格优化所需的模型,销售人员在向客户定价时可以立即利用这些信息。”

在危机事件可以迅速展开的世界中,业务运作意味着一切。人们现在需要数据。Shankar 说:“我们提供抽象。我们拥有与位置无关的能力来处理从本地到云端的数据。我们为业务用户提供翻译服务。” 最重要的是,及时向用户获取数据以便及时采取行动非常重要。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群