什么是数据湖？ - 经管之家

1548

收藏 2020-08-13

什么是数据湖？
你们中的有些人组织严密，纪律严明，并且所有物品都井井有条。您可以轻松记住所有这些项目的位置，并能够在短时间内取回它们。但是，有些人的组织很杂乱无章，以随机方式保存所有物品，对真正需要它的地方一无所知。当他们想要获取物品时，这将导致对房屋中所有存储空间的搜索操作。毫无疑问，这两种情况下都将放置这些物品。这两种方法都有其优点和缺点。我们不能说一种方法优于另一种方法。
让我们使用一个库示例来更仔细地研究上述场景。要在图书馆中维护书籍，您有两种选择。第一种选择是根据主题，作者，书名等对书籍进行分类，并按架子排列它们。普遍采用这种方法，并且可以轻松地通过一次查找从书架中取出特定的书本。查找操作节省了搜索时间。传统的数据库管理系统使用基于目录和索引的数据存储。假设我们有无限的计算资源可以在可忽略的时间内执行搜索操作，那么我们就不必保持书籍的排列顺序。只要将书放在架子上就可以了，当有人要书时，从头到尾对所有架子启动搜索操作。当找到特定书籍时，搜索将停止，并且此搜索所用的时间取决于书架在书架上的位置。但是在基于目录的书籍安排的情况下，查找特定书籍所需的时间将是相同的，而与书籍在书架上的位置无关。但是，要花一些时间才能将书索引并保持在书架上。当借书者归还一本书时，必须将其放回分配的位置。错误归还的书籍可能会导致书籍被宣告失踪。或者，在宣布书籍缺失之前，将对整个书架进行全面搜索。不管书架在书架上的位置如何，查找特定书籍所需的时间都将相同。但是，要花一些时间才能将书索引并保持在书架上。当借书者归还一本书时，必须将其放回分配的位置。归还的书籍放错位置可能会导致书籍被声明为丢失的情况。或者，在宣布书籍缺失之前，将对整个书架进行全面搜索。不管书架在书架上的位置如何，查找特定书籍所需的时间都将相同。但是，要花一些时间才能将书索引并保持在书架上。当借书者归还一本书时，必须将其放回分配的位置。归还的书籍放错位置可能会导致书籍被声明为丢失的情况。或者，在宣布书籍缺失之前，将对整个书架进行全面搜索。
在这里，我们有两个参数需要考虑，然后再选择一种在书架上整理书籍的方法。第一个参数是将书以有序方式维护在书架上所需的时间。第二个参数是在机架上进行总搜索所花费的时间。在维护数据仓库时，我们使用传统的数据库以有序的方式维护数据，这需要时间和成本来构造数据并将其放置在数据库表中。随着诸如Hadoop分布式文件系统（HDFS）之类的分布式文件系统的低成本实现的发展，对数据实施并行搜索以加快提取操作已成为可能。在这种情况下，提取操作所需的时间最少。事实上，低成本，高度可靠的分布式文件系统的发展引发了数据湖的出现。在数据湖中，我们将数据文件保存在目录中。我们也可以保留相同名称的文件。诸如MapReduce和机器学习培训之类的分析操作旨在处理整个数据集。这使得数据湖适用于涉及大数据分析和机器学习的系统。Apache Spark是使用存储在HDFS上的数据的成熟的分布式计算框架。HDFS上托管的数据湖可在用于大数据分析和机器学习的Spark应用程序中得到有效利用。这使得数据湖适用于涉及大数据分析和机器学习的系统。Apache Spark是使用存储在HDFS上的数据的成熟的分布式计算框架。HDFS上托管的数据湖可在用于大数据分析和机器学习的Spark应用程序中得到有效利用。这使得数据湖适用于涉及大数据分析和机器学习的系统。Apache Spark是使用存储在HDFS上的数据的成熟的分布式计算框架。HDFS上托管的数据湖可在用于大数据分析和机器学习的Spark应用程序中得到有效利用。
数据湖是以自然格式存储的数据存储库，通常是对象blob或文件，通常是在分布式文件系统中，该文件系统维护源系统数据的原始副本以确保可靠性。它是一个可伸缩的存储库，可让您在数据到达时存储所有结构化和非结构化数据。您可以按原样存储数据，而无需先构造数据然后进行索引。您可以在数据湖上运行不同类型的分析，从仪表板和可视化到大数据处理，实时分析和机器学习，以帮助做出更好的决策。
数据湖是部署在云中的理想工作负载，因为云可提供性能，可伸缩性，可靠性，可用性，各种分析引擎以及大规模的规模经济。客户将云视为数据湖的优势的首要原因是更好的安全性，更快的部署时间，更好的可用性，更频繁的功能/功能更新，更多的弹性，更大的地理覆盖范围以及与实际利用率相关的成本。
故事的症结在于维护数据仓库很昂贵，但是可以快速访问特定的数据记录。数据湖是一种低成本的实现方式，它可以缓慢地访问特定的数据记录，并且是在每个处理周期都需要访问整个数据集的应用程序的理想选择。希望这可以帮助您根据数据使用情况决定存储策略。