这个问题,就如《纽约时报》在其之前发表的一篇文章中指出的那样:所有的硬件都在加大马力全力运作,甚至包括工业冷却设备和备用柴油发电机排放到大气中废气和其他污染物。同时,即使数据中心运营商持续奖励那些节能措施,连续正常运行时间超过其能源效率的运作经常在满功率运行,但仍然有许多服务器明显处于闲置状态或明显未充分利用。
随着数据量的不断增长,也将由此产生相当数量的数据中心带来的污染。这一点,正如《纽约时报》所一针见血的报道的那样,明显与信息产业的时尚、高效率和环保的形象不符。
我并不完全同意这一评估。是的,云计算时代的数据中心确实明显比之前的一个普通的家庭甚至是大的城市公寓大楼制造了更严重的污染。但总体而言(即使《纽约时报》也认可)所有的数据中心所消耗的国家的能源资源仅为2%。而且,我们还有很长的路要走,数据中心行业在提高数据中心的效率方面已然有了显著的进步。
说到更具体的大数据,通过采用部署Hadoop等一系列的措施,硬件效率正在改善。根据上月的一份研究报告显示。其中一个是VMware公司的最新开源Serengeti项目,使管理员能够部署在现有的硬件上部署Hadoop虚拟化。这既提高效率,同时又避免了购买新的硬件的需要。
另一个项目是Pervasive Software的DataRush产品:
DataRush和RushAnalyzer抽象出来的复杂并行Hadoop作业,能够让用户实时监控I/O和CPU使用情况,并减轻内存的限制。最终能让服务器的利用率高达80%,并且能够更迅速和反复进行大数据分析。
《纽约时报》忽略的另一点是,大部分数据分析专家结合气候变化和环境进一步进行的可持续发展研究都是由这些数据中心所支持的。例如,美国航天局所建立的气候模拟中心,建立一个自定义的大数据平台收集了多达数PB的气象资料,以更好地预测和理解全球气候变化。NCCS数据中心消耗了大量的电力,但研究人员通过大数据分析发现的却是可能导致限制或甚至扭转全球变暖的方法。我想说,这只是一个公平的交易。
当然,并不是每一个大数据项目的目标都是促进更大的利益。但有一些这样的项目,在气候科学以及医疗和教育行业。
我很赞赏《纽约时报》针对这一问题进行重点讨论。但是让我们保持现实的观点。大数据的确排放了大量的污染物在大气中,但大数据行业也正在发展更有效的计算方法,并解决一些最棘手的环境所面临的挑战,人类将有可能弥补以上任何数据中心操作,更高效的计算,将直接影响大气环境。
责任编辑:yayo
http://tech.cnr.cn/list/201211/t20121130_511452500.html
中科院程学旗:大数据时代面临八大核心问题
2012-11-30 11:51 来源:搜狐IT 打印本页 关闭
C114讯 11月30日消息(杨笑)在今天上午召开的由中国计算机学会主办的“Hadoop与大数据技术大会”上,CCF大数据专家委员会秘书长、中科院计算所研究员程学旗表示,经过调研提炼出大数据时代八大核心问题。
据程学旗介绍,这八大核心问题是数据科学与大数据的学科边界、数据计算的基本模式和范式、大数据的特性和数据态、大数据的作用力与变化反应,大数据的安全和隐私、大数据对IT技术的挑战、大数据的应用和产业链、数据的生态环境问题。
对于大数据的作用力与变化反应问题,程学旗表示,这包括了两个方面,第一个是如何将大数据变小,在尽量不损失价值的情况下减少数据的规模,像数据的清洗、去除等等,即如何有效地处理大数据类似物理的作用,把大数据的规模变小但不损失价值。第二个是化学作用,从一个平面的大数据提炼出高附加值的概念、知识和智慧。大数据的探索和可视性在这里面可以得到很大的发挥。
对于大数据对IT技术的挑战问题,程学旗表示,这包括存储、传出和分布式计算相关的整体架构的变化。目前Hadoop实际上是应对大数据及大数据处理的相关的架构,虽然它目前的影响力很大但离成熟还有很远的距离,也就是说大数据的发展和爆发对IT架构提出了大的挑战。
对于大数据的应用和产业链的问题,程学旗表示大数据有大价值,但在产业上如何形成有效增益的环境,以及大数据到底在什么样的应用领域里能够发挥绝对的价值,比如说跟社会科学、跟金融相关的,还需进行一些分析。
对于大数据的生态环境问题,程学旗表示,如果大数据时代真正来临,一方面数据市场和数据衍生品将带来市场的繁荣,另一方面是政策、环境包括投资环境和管理政策方面以及科研、研究所、学生的培养和国家政策的扶持方面将形成生态环境
http://it.sohu.com/20121130/n359115319.shtml
EMC Bill:安全云计算大数据是公司三大重点狐IT消息】(文/刘瑞刚)11月30日消息,今天上午,EMC董事会副主席Bill Teuber在接受搜狐IT专访时表示,云计算、安全和大数据分析将成为公司未来的三大重点,其中,并购Vmware和GreenPlum帮助EMC切入并强化了在云计算和大数据等方面的IT服务能力。
并购切入云计算和大数据
EMC是一家传统的存储厂商,成立于1979年,总部位于Boston附近的Hopkinton。一直以来,存储产品和解决方案是EMC公司的核心服务,但EMC通过并购一步步扩大了自己的产品线和业务。
2003年,EMC宣布以6.35亿美元的价格收购了一家创立仅5年的虚拟技术公司Vmware。如今来看,这一交易成为EMC史上最划算的买卖,因为Vmware公司的市值此后增加了数十倍。
2010年,EMC宣布计划收购一个总部位于美国加州西海岸的云计算公司GreenPlumm。分析师称,EMC此举暴露了其全面进军云计算领域的野心。
需要说明的是,EMC并购GreenPlumm将获得一批优质客户。资料显示,Nasdagq、NYSE Euronext、 Skype、T-Mobile和Fox Interactive Media都是GreenPlum的客户。EMC并购GreenPlum之后,这些客户资源也为EMC所用,对于EMC云计算产品的推广起到了一定作用。
Teuber向搜狐IT表示,正是借助这两起并购,EMC切入并强化了自己在云计算和大数据分析等方面的能力。实际上,EMC的并购名单可以列很长,据不完全统计,EMC十年内并购70多家企业。
并购原则:没有破的东西不要去修
对于并购,EMC有一套自己的理论,不是破的东西不要去修,但是,收购来的企业也不能不管。
华尔街对于并购案一向不看好。比如,2012年,两家美国上市公司海辉和文思合并,合并后双方的股价均出现下跌。文思海辉董事长在同搜狐IT对话时就称,华尔街对于并购通常是要打叉号的,原因是整合面临一系列问题。
对于整合,EMC有一套自己的理论。第一条就是“没有破的东西不要去修”。Teuber表示,被收购的公司不一定要听母公司的话,原因是被收购的公司通常是因为优秀才被收购,所以,EMC要尽量保留和培养原公司的人才及文化。
Vmware就是一个明显的例子。虽然被EMC收购多年,但Vmware一直保持相对独立。
当然,被收购公司不听母公司的话并不代表EMC对被收购对象不闻不问。Teuber表示,EMC会帮助新公司做一些指导,或者培训,比如管理方面和市场营销方面。
此外,Teuber认为,收购企业关乎“名声”问题,如果被并购企业人才流失,那么潜在的并购对象就会表现出不愿意被收购的愿意。
据Teuber介绍,EMC每年会拿出约10%的营收投入研发,拿出约25亿美元投入到并购当中。因为EMC进行了数十起并购,因此,投资人对EMC的并购举动表示理解。
EMC中国愿景:希望叶成辉扩大份额
作为全球新兴市场的主管,Teuber同时管理着中国市场。Teuber表示,EMC中国的业绩增长很明显,但EMC希望叶成辉可以进一步提高市场份额。
现阶段,EMC在中国建立了三个研发中心,这三个研发中心同时面向集团提供支持,但会专门来针对中国市场提供解决方案。此外,EMC还在加大同中国本地企业的合作。
Teuber强调,EMC会重点加强同合作伙伴的合作。2012年,EMC同联想成立合资公司。据Teuber透露,双方已经有了一些实质的进展。目前双方合作集中在三大块,一是合资企业会生产EMC的消费者品牌。第二是EMC会在中国市场销售产品。第三,EMC会帮助联想开发服务器技术。
大数据进行时:聚光灯后的四大推手
这是一篇来自留英信息工程博士周文哲的一篇投稿,她于去年创业成立[url=http://www.brainpage.cn/]幸福佩智公司,专注于提供 Hadoop 的大数据处理与分析解决方案,产品已被应用到互联网广告、物联网等行业。
“大数据”这一话题在国内从今年起受到投资者追捧,也不断有高技术人才选择这个方向创业;但实际上国外对于“大数据”,已经走过了概念炒作阶段,出现了实际的应用,产生了实际的效益。周文哲这篇投稿,为我们详细揭示了大数据盛行背后的原因,以及大数据在国外发展的情况。
“忽如一夜春风来,千树万树梨花开”是唐朝的诗人岑参描写西北边塞早雪奇景的诗句,用来形容大数据的盛行,莫不为过。就在几个月前,大数据似乎还只是一个遥远的话题,短期内就“如一夜春风”吹来,在各种媒体、论坛、甚至ZF战略中频频露脸,那么,是什么推动了它的盛行呢?这些聚光灯背后,又有着怎样的故事?本文我们将从行业发展、应用普及、技术进步、金融和政策鼓励四个方面来探讨大数据的幕后推手。
推手一:数据的迸发大数据的概念或许大家并不陌生,“大”字不仅意味着数量的庞大,还代表着数据种类繁多、结构复杂,变化的速度也非常快,这些特征的出现与互联网的发展息息相关。从搜索引擎、社交网络的普及到今天人手皆是的移动终端,互联网上的信息总量正以每年 50% 的增速不断膨胀,其中 90% 的信息来自近三年,包括每个月 Facebook 上分享的 30 亿条内容,每天 12 TB 的 Twitter 信息,每天淘宝上超过 30 亿条店铺、商品浏览纪录及上千万的成交、收藏纪录等等。据 IDC 统计,2011 年全球所产生的数据总量是 1.8 ZB(10 的 21 次方),如果把这些数据刻录到 CD 碟片中,其摞起来的高度等于地球到月球的距离!
数据不仅在“量”上疯狂的增长着,在“源”上也不断的丰富着。目前世界上产生的数据,有近 80% 是由个人用户产生的;据估计,到 2020 年全球将有 500 亿个设备连入网络,地理位置、网络浏览行为、健康数据、甚至基因信息等,都成为技术为个体服务的有效资源,这也意味着商家对每一个用户都将有精准的了解,真正做到与客户的“零距离”接触。正是这种巨大的商业利益的驱使,使得大数据成为国际一流企业竞相投入使用的竞争利器。
推手二:应用的普及今年年初,美国一名男子闯入了他家附近的 Target 店铺(Target 是一家美国零售连锁超市)。“你们怎么能这样!”男人向店铺经理大吼到,“你们竟然给我 17 岁的女儿发婴儿尿片和童车的优惠券,她才 17 岁啊!”店铺经理不知道发生了什么,立刻向来者道歉,表明那肯定是个误会。然而,经理没有意识到,公司正在运行一套大数据系统。一个月后,这个愤怒的父亲打来电话道歉,因为 Target 发来的婴儿用品促销广告并不是误发,他的女儿的确怀孕了。
诸如此类的应用,在国际零售行业巨头中已屡见不鲜,我们以 Target 作为首例,是因为它的案例的确留给人强烈的印象:数据的力量,不仅让商家提升了自己的业绩,还让客户为之心甘情愿买单。Target 创建了一套女性购买行为在怀孕期间产生变化的模型,不仅如此,如果用户从他们的店铺中购买了婴儿用品,Target 在接下来的几年中会根据婴儿的生长周期情况定期给这些顾客推送相关产品,使这些客户形成长期的忠诚度。
实际上,诸如沃尔玛、Tesco(英国零售巨头)等巨头已从数据中获得了巨大的利益,也因此巩固了自己在业界的长盛不衰。以 Tesco 为例,这家全球利润第二大的零售商从其会员卡的用户购买记录中,充分了解一个用户是什么“类别”的客人,如速食者、单身、有上学孩子的家庭等等,并基于这些分类进行一系列的业务活动,比如,通过邮件或信件寄给用户的促销可以变得十分个性化,店内的上架商品及促销也可以根据周围人群的喜好、消费的时段来更加有针对性,从而提高货品的流通。这样的做法为 Tesco 获得了丰厚的回报,仅在市场宣传一项,就能帮助 Tesco 每年节省 3.5 亿英镑的费用。
在互联网行业,大数据更是为电商、广告商们提供了丰厚的回报。雅虎于 2008 年初便开始启用大数据技术,每天分析超过 200PB 的数据,使得雅虎的服务变得更人性化,更贴近用户和客户。它与雅虎 IT 系统的方方面面进行协作,包括搜索、广告、用户体验和欺诈发现等。AOL 也设立了 300 节点的服务器集群,将在其下属系列网站(如 AOL.com、Huffington Post、MapQuest 等)中每天 500TB 的用户浏览信息收集起来,分析和预测这些用户的行为,以便有针对性的为每个月 1.8 亿独立用户进行个性化广告服务。
于亚马逊(Amazon)而言,数据技术的应用更是为其成为一家“信息公司”,独占电商领域鳌头奠定了稳定的基础。为了更深入的了解每一个用户,亚马逊不仅从每个用户的购买行为中获得信息,还将每个用户在其网站上的所有行为都记录下来:每个页面的停留时间,用户是否查看 Review,每个搜索的关键词,每个浏览的商品等等,在亚马逊去年 11 月推出的 Kindle Fire 中,内嵌的 Silk 浏览器更是可以将用户的行为数据一一记录下来。这些数据的有效分析使得亚马逊对于客户的购买行为和喜好有了全方位了解,对于其货品种类、库存、仓储、物流、及广告业务上都有着极大的效益回馈。
数据技术的应用不仅在零售和互联网行业获得极大回报,其带来的经济价值使得各行业均为之“竞折腰”。在能源行业,Opower 使用数据来提高消费用电的能效,并取得了显著的成功。作为一家提供 SaaS 服务(软件服务)的创新公司,Opower 与多家电力公司合作,分析美国家庭用电费用并将之与周围的邻居用电情况进行对比,被服务的家庭每个月都会受到一份对比的报告,显示自家用电在整个区域或全美类似家庭所处水平,以鼓励节约用电。Opower 的服务以覆盖了美国几百万户居民家庭,预计为美国消费用电每年节省 5 亿美元。
最值得一提的是生物信息行业。生物信息是继互联网行业之后数据迸发最迅速的行业,并将远远超过互联网产生的数据:人类用 0 和 1 创造了虚拟世界,而造物主用 A/C/T/G 四种元素创造了万物生灵,生命的产生、发展、消亡的奥秘尽在其中。随着测序技术的发展,全基因组的测序价格由十年前的上亿美元降至今天的数千美元,这使得更多人、物种的 DNA 信息的获取成为可能。个体全基因组信息的获取,使得个性化诊疗服务成为可能。在美国华盛顿大学,研究人员通过对一位白血病患者的基因信息进行分析,成功的找出了导致癌细胞迅速扩散的致癌基因,并发现了能够阻止该基因产生作用的药物,有效的延长了患者的生命。
诸如以上的应用,在悄无声息的进行着,是数据带来的市场价值推动着一切的进行,亦构成了“引爆”大数据产业发展的第二个推手。
推手三:技术的发展技术与应用之间从来就是相辅相成的关系:应用的实现需要技术的支撑,而技术的进步能推动应用的普及。在以上实例应用的背后,是大数据技术让一切成为了可能。本文中,我们所指的大数据技术,主要是以 Hadoop 为代表的非关系型数据库系统及分布式运算架构,在这一部分,我们将简要介绍其发展背景。
上世纪 60 年代末关系型数据库技术的出现使得数据能按照固定的结构进行存储,方便用户根据数据属性进行查询的同时,也使得管理大为简便。然而,数据量的爆发增长和数据结构的多样性,不仅要求能快速录入、提取海量数据信息;还要求数据库随着数据量的增加而灵活扩展、数据存储不局限于固定的结构。这时,传统的关系型数据库技术已无法满足这些需求,于是,NoSQL 技术在上世纪末期开始出现。
然而,非关系型数据库技术一开始并未得到广泛应用,直到 2009 年,在搜索引擎、社交网络等互联网应用盛行使得数据量迅猛增加后,才开始为人们所重视并投入使用。发展到今天,NoSQL 技术已经形成了一系列不同用途的数据库管理系统,如 BigTable、Amazon DynamoDB、Hadoop/Hbase、Cassandra 等列族存储系统(Wide Column Store),MongoDB、CouchDB 等文件存储系统,Neo4J 等图形数据库系统。由于列族存储系统支持多种类型的数据存储,目前应用的范围最为广泛。
2004 年初,Google 开始研发 BigTable 非关系型数据库系统,它是建立在 Google 文件系统之上的一种压缩的、高扩展的数据库技术,可以让 Google 对于自身新增业务处理进行低成本的扩展。8 个月后,BigTable 开始投入内部使用,后来被广泛应用于一系列的 Google 应用中,如 Google Reader、Google Earth、Google Maps、Gmail、YouTube 等等。为了解决海量信息的计算问题,Google 又研发了 MapReduce 的并行计算技术架构,使得 T 量级以上的数据可以并行处理,并通过 BigTable 来存储和更改资料,有效的支撑了 Google 日益增长的数据处理任务。而 BigTable 这一模型,启发了众多“后来者”的数据技术。
Hadoop 便是其中一员。这个由 Yahoo! 的前员工 Doug Cutting(现任职于 Cloudera 公司)最初负责开发的项目,已成为大数据行业的技术中心。Hadoop 是由一系列开源技术组成的分布式架构,包括 Hbase 列数据库系统、MapReduce 并行计算框架、HDFS 分布式文件系统、Mahout 算法库等等,由于其扩展性高、数据种类灵活、成本低,Hadoop 被广泛应用于各行各业,包括互联网、生物信息、物联网,甚至美国宇航局 NASA 也用 Hadoop 来处理从宇宙望远镜中传回海量无线电数据,其数据量达到每秒钟 700TB!
2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop 的商用解决方案,其中包括 IBM、甲骨文(Oracle)、微软EMC、Teradata 等行业领先的数据解决方案提供商,使得 NoSQL 技术成为现存 SQL 数据解决方案的强有力补充;众巨头纷纷推出相应产品,来适应其客户数据业务的爆发增长,如 IBM 的 InfoSphere BigInsights,甲骨文的 BigData Appliance,EMC 的 GreenPlum 等等。Cloudera 公司的产品使得开源技术有效的为商业客户提供服务,而其创始人 Jeff Hammerbacher 亦被福布斯评为美国 30 位 30 岁以下科技领域的明日之星之一。
目前,Hadoop 技术以及被广泛应用了各大互联网公司,包括 Facebook、亚马逊、苹果、AOL、Ebay、Twitter、Netflix、淘宝、百度等等;在生物信息行业中,也初步得到了应用,如大型制药公司提供研究服务的 NextBio 公司,设立了 100 个节点的 Hadoop 集群来帮助制药公司进行基因研究。先进技术的发展为企业提供了高效使用数据的便捷工具,是促进大数据行业发展的第三大推手。
时间:2012-12-03 01:12来源:资讯中心 作者:Roger du Mars 围观:530次
受到新技术优势的吸引,许多商业智能(BI)主管都开始考虑部署最新工具,希望实现分散数据的高效整合和管理。对BI主管来说,虽然会面临巨大的压力挑战,但能够畅游数据海洋的诱惑使得他们愿意铤而走险。 然而分析师警告说,依赖于最新BI工具并强调高速处理数据,可能会将企业引向错误的方向,因为过分关注数据采集和整合将使得数据的正在价值被忽视。BI主管现在需要理性地进行重新部署,不要再拘泥于技术上的快速修复,而是要关注于数据完整性。 分析师指出了几个具有误导作用的常见概念,BI团队应该特别重视。 误区一、工具是万能的。 高级技术处理往往会跨越数据本身的价值,Athena咨询公司创始人Rick Sherman说:“BI部署的最大问题是,人们总是受供应商宣传攻势的影响,误认为工具就是解决方案。虽然每一代工具都很容易使用,但是人们忽略了一点:数据才是使用工具的关键。如果出现数据不完整问题,或者出现坏数据或无法访问,那么再高级的工具也无法解决问题。” MorganFranklin公司的管理主管和咨询师Bill Brydges指出,BI用户自己需要分辨关于新工具的满天宣传。他说:“BI团队存在一个预期问题,因为在市场中,供应商定位与技术宣传的重点是这些系统每天都在为您工作。BI主管很可能最终发现,他或她报告的数据和底层数据保持一致,而工具能够解决部分问题,但是仅此而已。” 外部数据主宰一切。不断增长的结构化和非结构化数据使得大数据引起了IT界的广泛关注。分析师指出,BI主管很难为业务用户提供外部 大数据源访问,如社交媒体数据。但是,通常收集这些信息的价值不仅无法弥补投入的人力,而且还需要投入更多的内部数据挖掘人力。Gartner分析师Douglas Laney将这些未充分利用的信息称为“暗数据”。 他说:“对于大部分组织而言,大多数暗数据集就位于组织内部。暗数据(如文档和电子邮件)都是未充分利用的数据。” 分析人员指出,忽视内部数据造成了一些麻烦的后果,如数据不一致性、匆忙整理的文档和冗余报告。对于Brydges而言,这就是浪费时间。 Brydges说:“这里的主要问题是,人员会很快获得所想到的第一个数据源或创建新报告,而不会仔细了解企业已有的信息,而这并不是新型BI特有的问题。这个问题会慢慢形成多个版本的事实,而且这种状况会不断发展,因为随着版本的增加,我们需要创建更多的报告。” Brydges说,从分散的角度转到统一专注的视图,首先要创建企业数据标准——而这要求商业智能主管寻求企业级协助。 他说:“对于BI工具的现成特点和分布式BI功能,它们的问题之一是,人员能够以各种方式处理组织是各个方面的数据。但是,有时候这样做的代价是要获得中央企业管理职能的支持,至少要在主要领域上获得基本认同。” 误区二、过分依赖数据 分析师坚持认为,车马倒置的现象影响着整个BI管理过程,其中软件工具将报告推进到这样一种范围:BI主管与业务用户都在不了解问题的前提下盲目收集信息——或者甚至不理解采集数据的目的是什么。 TechTarget业务应用程序和架构媒体部门研究主管和BI咨询师Wayne Eckerson说:“因为数据很复杂、多维和多变,所以在业务用户真正看到数据之前,他们一般都不清楚自己想要什么。”Eckerson说,解决方法是加深协作。他说:“BI主管需要与业务用户更紧密地协作,而且这是一个重要的成功要素,因为最佳团队让他们的开发者与业务用户协同完成开发工作,而不会在他们中间安排其他角色。” 误区三、数据提交就完事大吉 通常,用户可能完全不会关注BI团队创建的报告。Laney回忆说,有一个公司曾经抱怨它的BI报告环境不适合业务。为了测试报告是否未被阅读,他建议在报告中插入错误数字。果然,没有人对些垃圾数据提出质疑。 即使有阅读这些报告,报告数据的使用过程也存在问题。Laney说:“许多组织并没有准备专门处理所发现数据的操作。”他补充说,BI主管应该承担保证报告不被闲置的职责,因为创建和支持这些报告的成本是高昂的。 他说:“在规划阶段,BI主管应该让最终用户与他们共同确定分析结果的使用方式,然后保证进行与信息使用相关的流程和培训。” Laney将一部电影看作是一个很有用的教训。在1992年上映的电影《义海雄风》中,主演汤姆·克鲁斯对杰克·尼科尔森扮演的谢将军进行调查,以查清楚罪案背后的真相。谢将军辩称:“你不可能触及真相!”Laney认为,尝试从BI数据获取商业价值时:缺少规划和有效协同,那么真相最终会受到破坏。
扫码加好友,拉您进群



收藏
