什么是大数据?分析和数据工程初学者快速入门
“大数据”一词有点用词不当,因为它暗示着预先存在的数据一定程度上很小(不是),或者唯一的挑战是其庞大的规模(大小是其中之一,但通常还有更多) )。
简而言之,大数据一词适用于无法使用传统流程或工具处理或分析的信息。
进一步了解大数据:每个人的解释-科技-Mi社区-Xiaomi
如今,越来越多的组织面临越来越多的大数据挑战。他们可以访问大量信息,但他们不知道如何从中获取价值,因为它以最原始的形式或半结构化或非结构化的形式存在。结果,他们甚至不知道它是否值得保留(或者甚至能够为此保留它)。
在本文中,我们将探讨大数据的概念及其含义。
目录
什么是大数据?
大数据的特征
数据量
各种数据
数据速度
什么是大数据
我们每天都参与其中!
IBM的一项调查发现,如今超过一半的业务领导者意识到他们无法获得完成工作所需的见解。在这样的环境中,公司正面临着这些挑战:它们有能力存储任何内容,并且正在以前所未有的方式生成数据。结合起来,这是一个真正的信息挑战。
大数据
这是一个难题:当今的企业比以往任何时候都拥有更多的潜在洞察力,但是随着这种潜在的数据金矿的堆积,企业可以处理的数据百分比正在迅速下降。简而言之,由于世界在变化,因此大数据时代如今已全面到来。
通过检测,我们能够感知更多的事物,并且如果我们能够感知到,我们倾向于尝试存储(或至少其中一些)。通过通信技术的进步,人与物之间的联系日益紧密,不仅是某些时间,而且是所有时间。这种互连速度是一条失控的列车。互连通常被称为机器对机器(M2M),它负责实现同比两位数的数据增长率(YoY)。
最后,由于小型集成电路现在非常便宜,因此我们能够为几乎所有事物添加智能。甚至像火车一样平凡的东西也有数百个传感器。在铁路车上,这些传感器可以跟踪诸如铁路车所经历的状况,单个零件的状态以及基于GPS的数据以进行货运跟踪和物流的信息。火车出轨导致大量人员伤亡后,各国政府制定了法规,要求对此类数据进行存储和分析,以防止将来发生灾难。
轨道车也变得越来越智能:添加了处理器以解释易磨损零件(例如轴承)上的传感器数据,以识别需要维修的零件,以免它们失效并造成进一步的损坏,甚至更严重的灾难。但是,不仅仅是智能的轨道车-实际的轨道每隔几英尺就有一个传感器。此外,数据存储要求是针对整个生态系统的:汽车,铁路,铁路道口传感器,导致铁路移动的天气模式等。
现在,将其添加到跟踪铁路车辆的货物负载,到达和离开时间中,您很快就会发现您手上遇到了大数据问题。即使这些数据的每一位都是关系数据(不是),它们都将是原始数据,并且格式非常不同,这使得在传统的关系系统中处理数据是不切实际或不可能的。铁路车只是一个例子,但是我们所看到的任何地方,我们都看到速度,体积和种类相结合的领域构成了大数据问题。
大数据的特点是什么?
定义大数据的三个特征是:数量,种类和速度。
这些特征共同定义了“大数据”。他们提出了一种新的功能需求,以增强当今的工作方式,以便更好地了解和控制我们现有的知识领域以及对这些知识领域采取行动的能力。
大数据特征
1.数据量
今天存储的数据量正在爆炸式增长。在2000年,全球存储了800
大数据量资源
当您停下来想一想时,我们淹没在数据中也就不足为奇了。我们存储所有数据:环境数据,财务数据,医疗数据,监视数据,并且清单不断。例如,将智能手机从皮套中取出会产生一个事件;当您的通勤火车的门打开登机时,这是一个事件;办理登机手续,工作,在iTunes上购买歌曲,更改电视频道,采用电子收费方式-这些操作中的每一项都会生成数据。
好的,您明白了:数据比以往任何时候都要多,您所要做的就是将个人家用计算机的TB渗透率视为一个好兆头。我们过去经常保存所有已知的数据仓库的列表,这些数据仓库大约在十年前已经超过了TB,这可以说,在数量方面,情况已经发生了变化。
正如“大数据”一词所暗示的,组织正面临着海量数据。不知道如何管理这些数据的组织对此感到不知所措。但是,如果有合适的技术平台,就有机会分析几乎所有数据(或者至少通过识别对您有用的数据来分析更多数据),以更好地了解您的业务,客户和市场。这导致所有行业的当今企业面临当前的难题。
随着企业可用数据量的增长,可以处理,理解和分析的数据百分比在下降,从而形成了盲区。
那个盲区里有什么?
您不知道:这可能是一件很棒的事情,或者根本什么都没有,但是“不知道”是问题所在(还是机会,取决于您的看法)。关于数据量的讨论已经从TB更改为PB,不可避免地转移到了Zbytes,所有这些数据都无法存储在传统系统中。
2.各种数据
品种资源
与大数据现象相关的数据量为数据中心试图应对的问题带来了新的挑战:多样性。
随着传感器,智能设备以及社交协作技术的爆炸式增长,企业中的数据变得越来越复杂,因为它不仅包含传统的关系数据,还包含来自网页,Weblog的原始,半结构化和非结构化数据文件(包括点击流数据),搜索索引,社交媒体论坛,电子邮件,文档,来自主动和被动系统的传感器数据等。
此外,传统系统可能难以存储和执行所需的分析以从这些日志的内容中获得理解,因为生成的许多信息并不适合传统的数据库技术。以我的经验,尽管有些公司正在逐步走上大步,但大多数公司才刚刚开始了解大数据的机会。
简而言之,多样性代表了所有类型的数据,这是分析要求的根本变化,从传统的结构化数据到决策,洞察力过程的一部分,包括原始,半结构化和非结构化数据。传统的分析平台无法处理多样性。但是,组织的成功将取决于其从各种可用数据中汲取见解的能力,这些数据包括传统数据和非传统数据。
当我们回顾我们的数据库职业时,有时会感到沮丧,因为我们将更多的时间花在了仅20%的数据上:关系类型经过整齐地格式化,非常适合我们的严格模式。但是,事实是,世界上80%的数据(而且越来越多的数据负责设置新的速度和体积记录)是非结构化的或半结构化的。如果查看Twitter feed,您将看到JSON格式的结构-但实际文本不是结构化的,理解这一点可能会有所收获。
视频和图片图像不能轻松或有效地存储在关系数据库中,某些事件信息可以动态更改(例如天气模式),这不太适合严格的模式等。为了利用大数据机会,企业必须能够分析关系和非关系的所有类型的数据:文本,传感器数据,音频,视频,事务性等。
3.数据速度
正如我们收集的大量数据和存储的种类已经改变一样,存储和生成数据的速度也需要改变。对速度的常规理解通常考虑数据到达和存储的速度及其相关的检索速率。快速管理所有这些都是好的,而我们正在查看的数据量是数据到达速度的结果。
为了适应速度,必须从数据的起始点开始考虑问题的新方法。建议不要将速度的概念限制在与数据存储库相关的增长率上,而是建议将此定义应用于运动中的数据:数据流动的速度。
数据速度
毕竟,我们一致认为,当今的企业正在处理的是PB级数据,而不是TB级数据,而且RFID传感器和其他信息流的增长导致了持续不断的数据流,其速度使得传统系统无法实现处理。有时,要在竞争中脱颖而出,可能意味着比其他人先几秒甚至几微秒才能确定趋势,问题或机会。
此外,当今越来越多的数据保存期限非常短,因此,如果组织希望从这些数据中找到洞察力,则必须能够几乎实时地分析该数据。在传统处理中,您可以考虑针对相对静态的数据运行查询:例如,查询“向我显示住在ABC洪水区的所有人”将导致将单个结果集用作即将到来的天气的警告列表模式。使用流计算,您可以执行类似于连续查询的过程,该过程可以识别当前“处于ABC洪水区”的人员,但是由于GPS数据中的位置信息是实时刷新的,因此您可以获得不断更新的结果。
要有效地处理大数据,您需要对数据的数量和种类进行分析,而这些数据仍要处于活动状态,而不仅仅是静止状态。考虑从追踪新生儿健康到金融市场的例子;在每种情况下,他们都需要以新的方式处理大量数据。
尾注
您无法承受传统流程中所有可用数据的筛选;就是太多的数据,已知价值太少,赌博成本也太高。大数据平台为您提供了一种经济地存储和处理所有数据,并找出有价值和值得开发的方法。此外,由于我们谈论的是静态数据和移动数据的分析,因此您可以从中找到价值的实际数据不仅范围更广,而且您可以实时地更快地使用和分析它。
题库