数据挖掘新潮流:“大数据”时代
“大数据”时代已经到来最早由全球知名咨询公司麦肯锡提出,如今数据挖掘领域的热门词汇。从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。大数据的特点被总结为4个“V”:第一,Volume,数据体量巨大。从TB级别,跃升到PB级别。第二,Variety,数据类型繁多,尤其是包含各种非结构化数据。第三,Value,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,Velocity,要求的处理速度快。
现有的数据挖掘因为并没有非常大的数据,所以需要构建相对复杂的分析模型,大数据为企业提供了非常巨量的数据,这就意味着企业不再需要构建复杂的分析模型了。因此,数据挖掘的分析方式将会发生重大变化。
今年奥巴马ZF宣布“大数据的研究和发展计划。”美国国防部、国土安全部、能源部、退伍军人管理部、卫生和人类服务部等多个联邦ZF的部门和机构宣布新的2亿美元的投资,提高从大量数字数据中访问、组织、收集发现信息的工具和数据挖掘技术水平,还计划与工业界、大学研究界、非营利性机构与管理者一起利用大数据所创造的机会。通过提高从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究。
SAP Sybase公司全球CTO Irfan Khan在美国福布斯杂志发表了一篇的名为《The Big Lie About Big Data》的文章,指出大数据并不是IT部门的洪水猛兽,某种程度上不过是过去三四十年来对数据管理和数据挖掘处理挑战的理解、认识的新一轮说法。当然,每一轮的说法不一样也并不是完全意义上的重复,循环式上升,毕竟每一轮的硬件、软件、网络、业务的关注点都不同,数据量的确是个硬指标。
他认为通过使用列式数据库分析架构,组织机构可以不必过度对“大数据”带来的焦虑,相反,还能够让“大数据”更好为企业运营服务。在列式数据库中,用户可以随时调用和分析大数据集,即使对诸如非结构化数据等各种数据类型的大数据集亦是如此。它们不仅随时可用,而且执行速度更快,还能根据工作要求,更方便地扩展,从而为尽可能多的用户服务,涵盖尽可能多的数据。当今分析行业也没有任何借口不使用“大数据”。无论是扩大分析数据仓库、涵盖数以千计的用户,还是来自各种奇特来源的各类非结构化数据进行数据挖掘,它们都没有逃脱的借口。分析行业再也不能躲在“大数据”这个吓人的怪物身后,因为我们知道,通过使用列式分析基础架构,就能够让“大数据”更好为企业运营服务。