全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
1176 1
2015-07-14


原文作者:Doug Lautzenheiser,本译文在原文基础上有改动


众所周知,现在的公司是能够从海量的数据中盈利的,并且这一盈利方式的潜力非常巨大。与此同时,“大数据”这个词越来越多地出现在人们的耳边,那么“大数据”究竟是什么呢?为了揭开它的神秘面纱,我们先来了解一下有关它的发展历史。

在不久之前,很多公司仅仅记录、存储公司的内部事务和主要的数据(比如产品、客户、员工信息等);除此之外,并不记录存储其他方面的数据。只有那些对应用程序及系统的存储容量和运行速度的要求很高的行业(比如电子通信业、运输业)或者一些供销点,才有可能拥有超大型数据库。但即便如此,只要按照标准方式就可以将这些交易记录的数据库全部格式化,并且,保存这些交易记录的关系数据库是IBM早在1960年就设计出来的。当时的公司普遍缺乏对数据的重视。

对于20世纪70年代至80年代的企业来讲,应对这样的情况是绰绰有余的。之后进入20世纪90年代中期,互联网、浏览器以及电子商务如雨后春笋一般纷纷出现。在那十年的最后一段时间里,一家名叫谷歌的网络搜索引擎公司面临了这样的挑战:如何才能够追踪到全球所有网页的所有动态。传统的计算存储方法是在纵向逐层扩大:去换一个更大的服务器、更强的数据库引擎以及更多的磁盘空间。

但对于当时还是一个小公司的谷歌来说,花钱并不是一个很好的选择。毕竟,谷歌公司的成立晚于Lycos、WebCrawler、AltaVista、Infoseek、Yahoo还有一些其他的搜索引擎公司,并且当时的谷歌在各方面来说都远远落后于这些元老级的搜索引擎公司。

于是谷歌决定横向向外扩展的策略,而非纵向扩大。他们使用普通的商务机,这类电脑非常容易获取。谷歌不仅传播数据,而且显示应用程序的处理过程。而且,他们并没有买任何大型超级计算机,而是使用了上千台径流式的计算机同时工作。在这种分布式数据框架的顶部,他们使用了一种常见的Map-Shuffle-Reduce软件技术,建立起自己的技术处理引擎。

当然啦,横向向外扩展的模式意味着,谷歌在写入数据或者运行软件的时候很可能发生故障。这些上千台电脑中可能有一台或者几台同时崩溃,那样的话一切都完蛋了。为了解决类似的问题,谷歌增加了数据的自动复制功能,并且设计出能够转移故障的逻辑算法。这样的话即使偶尔出现糟糕的情况,计算机仍然能按预期那样为用户工作。

谷歌2003年发布的文档中向全世界解释了他们的的分布式数据存储方法。并且次年他们又批露了有关并行处理引擎的细节。

大数据来自于全世界的公司,它由社交媒体、服务器日志、人机界面等等迅速产生。大数据不遵循任何一套特定的规则,所以如果你想尝试在它的顶部设置一个静态布局,会发现几乎不可能,这是个超级大的挑战哦!其中一个主要原因就是,传统的关系型数据库管理系统(RDBMS)在处理大数据这件事情上,只能望洋兴叹。

那么问题来了,“大数据”都这么错综复杂了,干嘛还需要它,这看似毫无规律的复杂性究竟有什么卵用?

对于谷歌和Nutch(也是一家搜索引擎公司)来说显而易见的是,搜索引擎试图从全世界的网站和网络里搜索和收集字节。所以处理大数据正是他们的业务。

任何大型企业都是在谷歌的另一端:人们会浏览和使用他们的网站,很有可能从Google的搜索结果里导航到它。因此,大多数公司会对web服务器日志进行大规模分析,这正是一个使用大数据的例子。尤其是当公司能够查看到黑客的某类型的可疑行为时(这类行为表明之后可能造成黑客攻击),大数据就在此时发挥奇效了!它保护了你的公司,正因如此,公司才能免于遭受一场网络犯罪带来的损失。

如果你提供在线产品,那么使用大数据的一个常见例子就是“自动推荐引擎”。一个应用了大数据的智能程序可以针对每一位客户想买的东西提供个性化的建议,将每一位客户都作为一个独立的个体,分别提供私人订制的服务。大数据在此时的作用就在于无形之中提高了每一位客户的参与、满意度和忠诚度。

除此之外,大数据同样也可以作为一个更具成本效益的方法,用来从企业的数据库中提取、转换和加载数据,这样就大大减少了你操作的成本和时间。

目前的大多数公司都有大量由机器生成的数据,比如:时间和考勤箱、车库的安全门、生产机器的工作日志等。这些都是新兴的“物联网”所带来的数据海啸的例子。获取物联网设备以及分析这些事件的时间序列,在这些过程中我们原本一无所知,现在却甚至可以发表一些非同一般的见解。

  只要记住一点,那就是:使用大数据获取商业成功的关键就在于,在具体业务问题中能够意识到哪些是你需要解决的问题,并且立即采取行动。




本译文由CDA数据分析研究院翻译,译者:Henry


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-7-15 09:26:09
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群