全部版块 我的主页
论坛 数据科学与人工智能 大数据分析 Hadoop论坛
1617 0
2014-06-16
目前大数据概念十分流行,就是你问卖白菜的大妈:“你知道大数据吗?”。虽然她可能会回答你:“多少钱一斤?”但是你百度一下就会发现【百度为您找到相关结果约100,000,000】个答案。但是你对大数据了解有多少?


数据处理和分析:传统方式

传统上,为了特定分析目的进行的数据处理都是基于相当静态的蓝图。通过常规的业务流程,企业通过CRM、ERP和财务系统等应用程序,创建基于稳定数 据模型的结构化数据。数据集成工具用于从企业应用程序和事务型数据库中提取、转换和加载数据到一个临时区域,在这个临时区域进行数据质量检查和数据标准 化,数据最终被模式化到整齐的行和表。这种模型化和清洗过的数据被加载到企业级数据仓库。这个过程会周期性发生,如每天或每周,有时会更频繁。






图1–传统的数据处理/分析资料来源:Wikibon2011



在传统数据仓库中,数据仓库管理员创建计划,定期计算仓库中的标准化数据,并将产生的报告分配到各业务部门。他们还为管理人员创建仪表板和其他功能有限的可视化工具。



同时,业务分析师利用数据分析工具在数据仓库进行高级分析,或者通常情况下,由于数据量的限制,将样本数据导入到本地数据库中。非专业用户通过前端的 商业智能工具(SAP的BusinessObjects和IBM的Cognos)对数据仓库进行基础的数据可视化和有限的分析。传统数据仓库的数据量很少 超过几TB,因为大容量的数据会占用数据仓库资源并且降低性能。



        大数据性质的变化

Web、移动设备和其他技术的出现导致数据性质的根本性变化。大数据具有重要而独特的特性,这种特性使得它与“传统”企业数据区分开来。不再集中化、 高度结构化并且易于管理,与以往任何时候相比,现在的数据都是高度分散的、结构松散(如果存在结构的话)并且体积越来越大。



        具体来说:

        ·体积-通过Web、移动设备、IT基础设施和其他来源产生的企业内部和防火墙外的数据量每年都在成倍增加


        ·类型-数据类型的多样性增加,包括非结构化文本数据以及半结构化数据(如社交媒体数据,基于位置的数据和日志文件数据)。



·速度-得益于数字化交易、移动计算以及互联网和移动设备的高用户量,新数据被创建的速度以及实时分析的需求正在增加。


        广义地说,大数据由多个来源产生,包括:

·社交网络和媒体:目前有超过7亿Facebook用户,2.5亿Twitter用户和1.56亿面向公众开放的博客。Facebook上的每个更 新、Tweet和博客上文章的发布及评论都会创建多个新的数据点(包含结构化、半结构化和非结构化的),这些数据点有时被称为“数据废气”。



·移动设备:全球有超过50亿正在使用中的移动电话。每次呼叫、短信和即时消息都被记录为数据。移动设备(尤其是智能手机和平板电脑)让使用社交媒体等应用程序更容易,而社会媒体的使用会产生大量数据。移动设备也收集和传送位置数据。



·网上交易:数十亿的网上购物、股票交易等每天都在发生,包括无数的自动交易。每次交易都产生了大量数据点,这些数据点会被零售商、银行、信用卡、信贷机构和其他机构收集。



·网络设备和传感器:各种类型的电子设备(包括服务器和其他IT硬件、智能电表和温度传感器)都会创建半结构化的日志数据记录每一个动作。



QQ图片20140616130757.jpg


图2–传统数据v.大数据资料来源:Wikibon2011



从时间或成本效益上看,传统的数据仓库等数据管理工具都无法实现大数据的处理和分析工作。也就是说,必须将数据组织成关系表(整齐的行和列数据),传 统的企业级数据仓库才可以处理。由于需要的时间和人力成本,对海量的非结构化数据应用这种结构是不切实际的。此外,扩展传统的企业级数据仓库使其适应潜在 的PB级数据需要在新的专用硬件上投资巨额资金。而由于数据加载这一个瓶颈,传统数据仓库性能也会受到影响。



        因此,需要处理和分析大数据的新方法。






单选投票, 共有 2 人参与投票

投票已经结束

50.00% (1)

50.00% (1)

您需要登录之后方能进行投票
附件列表
QQ图片20140616130757.jpg

原图尺寸 17.74 KB

QQ图片20140616130757.jpg

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群