全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1217 0
2022-05-26
大多数企业倾向于依赖关系数据库管理系统 (RDBMS) 来提供业务洞察力,包括持续智能。云关系数据库提高了它们带来的计算能力,以处理更大量的数据。然而,关系数据库,即使是云端的,也面临两个问题。他们在处理非结构化大数据和巨大的内存需求时遇到了困难。它们的固定模式架构使得很难为高比例的持续智能提供服务。

Gartner 预测,到 2022 年,超过“一半或主要的新业务系统将包含持续智能”。持续智能需要将大数据转化为实时分析业务运营可以用来规定行动。然而,许多公司都在努力寻找一种通用数据库解决方案,该解决方案能够快速响应、处理各种类型的海量数据、跨多个计算实例横向扩展、性能良好、保持一致和可控。


对更快、更好的性能和更灵活的架构的渴望导致了非关系或NoSQL 数据库. NoSQL 数据库的存储需求更少,可以更好地处理大数据,并且可以快速周转摄取的数据。但是,作为 DATAVERSITY®2021 年数据管理趋势报告提到,许多企业在理解如何从NoSQL数据库及其架构中获得任何业务洞察力时感到不知所措。

最近 DATAVERSITY 与解决方案架构师 Jai Karve 进行了交谈MongoDB,为了更好地理解非关系数据库技术,它如何为持续智能做好准备,同时缩小与 RBDMS 优势之间的差距以变得更通用。

在更多机器上更快地移动数据
NoSQL 技术源于“快速移动数据”和“横向扩展”的驱动力,Karve 说。回到 2008 年,发现 Twitter 和 YouTube 等流媒体应用越来越受欢迎。这些应用程序越来越快地积累连续数据,而 RDBMS 在尝试处理所有这些数据时遇到了性能问题。

“因此,一些 NoSQL 开发人员研究了如何在多台机器上分布庞大的数据集。他们希望容纳丰富的 JavaScript 对象表示法 (JSON) 数据结构,旨在加速计算机之间的请求和响应,同时向外扩展以包括许多联网的计算机实例。结果,NoSQL 技术作为现成的大数据平台即服务运行,允许开发人员构建数据应用程序。”

渴望获得有关这种新型架构的反馈,非关系数据库代码成为开源,开发人员可以在其中试用、修改、提交问题并提出改进建议。正如他所观察到的,企业继续将非关系数据库视为异常情况。

“公司继续将其 RDBMS 用于记录系统,并使用 NoSQL 数据库(如 MongoDB)来构建应用程序编程接口 (API) 并利用 JSON 功能来提高性能和速度。因此,市场将 NoSQL 数据库视为一种针对小众用例的解决方案,一种用于更快地提供存储数据的缓存层。”

虽然 NoSQL 数据库渴望有更多的主流用途,但它们缺乏重要的特征,包括数据验证和符合 ACID-a 的事务。酸描述了原子的、一致的、隔离的和持久的数据库属性,非常适合支付。任何为满足 ACID 属性而设计的数据库系统都可以保持每个事务、一组操作和值的完整性。相比之下,NoSQL 数据库可以从输入时间开始更改数据,最终保持一致,但不一定提供强一致性保证。

一些 NoSQL 技术试图通过在数据库级别锁定数据来实现这种一致性。“但随后更新或写入数据库变得很麻烦,”正如 Karve 所说,“不鼓励使用 NoSQL 数据库。” NoSQL 的挑战变成了“……在 NoSQL 中提供高可用性和水平可扩展性优势,但通过理想的 RDBMS 功能(如 ACID 事务)缩小差距。”

具有 ACID 属性的通用 NoSQL 数据库
2017 年,NoSQL 数据库技术不断发展,保留了灵活性、速度和性能,同时嵌入了 ACID 数据库属性。Karve 引用了一种解决方案,即文档数据库. 每个文档都包含根据用户规范定制的键和值。文档数据库中文档的内容、数量和数组几乎没有限制,非常适合大数据。

Karve 解释说 MongoDB 将 ACID 属性添加到此文档数据架构中。首先,算法验证写入 JSON 文档的内容。将此代码视为一种维护数据质量的方法,方法是检查文档内容是否符合业务规则和要求,并保留符合的内容并将其锁定。这种编程使事务具有原子性和一致性。

NoSQL 数据库的持久性来自副本集。每个数据集群都包含一个主节点,接受数据库写入和复制写入的辅助节点。当主节点发生故障时,其中一个备份节点成为主节点。随着新节点逐渐成为主要节点,数据可以确保承受服务器或网络中断。

MongoDB 构建了一个 ACID 数据库,一个具有一组 JSON 文档的数据集群,通过代码进行配置和检查。与此同时,企业可以根据需要在多个位置扩展尽可能多的数据集群,或者灵活地决定如何这样做。

持续智能数据库架构
了解如何从文档数据库 NoSQL 架构中获取持续智能是一项挑战。卡维评论道:

“人们在尝试将他们的数据库模型映射到文档数据库时,会被关系数据库包袱所困。他们试图实现规范化,组织数据以满足基于关系的模式。然后客户会有一个糟糕的体验。开始,通过进行范式转变来获得商业利益。在对数据进行建模时,他们需要考虑数据存储和访问。保持相同的数据一起访问。少考虑盒子,多考虑每个数据集群的细节。”

认识到业务可能会陷入 RDBMS 的角度,MongoDB 创建了现代化工具包与一些合作伙伴。“这个图形界面帮助业务分析师从 RBDMS 映射到数据集群,更好地理解 NoSQL持续智能数据建模。”

对于那些希望保留其关系模式的人,Confluence 等供应商集成了 NoSQL 和 SQL 技术,连接了企业工具。结果是一个“强大的平台,允许业务分析师轻松访问实时事件筛选,同时通过 SQL 查询转换持续智能。” 示例还包括 Tableau 和 PowerBI,它们提供了可以使用 SQL 查询的实时交互式仪表板和报告。

治理数据集群
实时交互式仪表板只提供与数据库系统内的数据质量一样好的智能。但是,当业务需求发生变化时会发生什么?卡维评论道:

“一些员工使用开源文档数据库来快速完成工作。但是随着时间的推移,许多不同的做法会被继承下来。一旦员工离开,企业就不知道如何管理或管理该数据库。”

他解释了 MongoDB 如何处理这种数据治理问题,称为 Atlas 的云数据库服务。将 Atlas 视为云中数据集群设置的控制中心。Mongo 负责“NoSQL 数据库结构的繁重提升”,而业务则拥有“设置数据集群参数的杠杆、旋钮和刻度盘”。从那里,企业可以微调数据性能和位置。

这如何适用于数据治理?了解数据位置意味着了解哪些法规适用于存储在那里的数据。随着政府制定不同的隐私标准,更新数据配置以遵守新法律或将数据转移到没有法规的其他位置变得更加容易。

将此功能结合在企业范围的数据治理保护伞下,并获得一种强大的方式来微调和灵活管理数据策略和程序。

通过扩展的可扩展性使流数据对用户更加友好
NoSQL 技术的未来对于持续智能来说是光明的。首先,NoSQL 数据库承诺通过自治数据库功能对用户更加友好。Karve 解释说:“MongoDB 将检测用户行为并提供有关数据库建模的建议

和索引创建。” 索引可以更快地检索搜索结果。

其次,MongoDB 的文档数据库将扩展其处理更多移动设备和物联网 (IoT) 的能力。Karve 说,“这将使网络边缘的数据集群能够更好地与服务器同步。” NoSQL 技术将利用 5G 技术,具有更快的连接速度,允许更多的流数据输入。

业务需要 NoSQL 技术来利用持续智能,因为它具有灵活性、性能和可靠性。此外,基于最近的 COVID-19 大流行,企业将采用多云的可能性视为存储数据和防止停机的更有弹性和弹性的方式。NoSQL 数据库可在许多云中横向扩展性能,从而扩展您可以捕获的连续数据量以及将其放置在何处。单独的 RDBMS 不具备处理多云数据和持续智能的架构。

      相关帖子DA内容精选
  • 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群