全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
3838 4
2016-03-09

大数据分析

大数据——分清谬误与事实之间的差别


互联网的发展壮大,相信大家都看到了大数据的魅力。大数据对于任何的大小企业都是非常有帮助和前途的。它对公司的发展规划和决策建议带来非常大的帮助。同时还能了解服务和产品的差距。然而,大数据与其他任何技术一样,人们对大数据的认知和认识都还有一些误解的存在。下面好好来告诉你关于大数据——分清谬误与事实之间的差别。


011.jpg


1、谬误:大数据是新概念


事实:圣经中的每个字都被大量的交叉引用,叫做一致性,在第一个数据库引用之前就被修道士使用了几个世纪。


2、谬误:大数据是针对大企业的


事实:所有规模的企业都能够利用大数据分析,这得益于最近的云数据管理技术的改进。


3、谬误:数据越多越好


事实:数据的质量胜过数据的质量。使用什么往往比使用多少更有价值。


4、谬误:我们的数据如此混乱,我们不可能掌握大数据


事实:先进的数据质量、主控数据管理和数据管理工具使清理混乱的企业数据更加容易。


018.jpg


5、谬误:每一个问题都是大数据的问题


事实:如果你要在几兆字节中匹配一些字段和一些环境,它不是真正的大数据问题。不要把每个分析需求都看成是大数据的工作。


6、谬误:大数据应用需要很少或者根本不需要性能优化


事实:大数据应用程序需要定期调整分析与越来越多的数据和变量的统计模型。


7、谬误:大数据是一个魔力8号球


事实:大数据可能不会告诉你一切。很多情况下取决于正确的问题和正确的数据才能让它工作。


8、谬误:大数据只是非结构化数据


事实:大数据不必非结构化。例如大量的结构化数据,由于其体积庞大而划分为大数据。


023.jpg


9、谬误:你需要非机构化数据来预测


事实:预测模型使用一个非结构化和结构化的数据组合来训练模型和推理。


10、谬误:机器学习是一个与大数据相关的概念


事实:机器学习的概念是利用数据来模拟一个潜在的过程。然而,当与大数据结合使用时,机器学习算法可以提供有价值的见解。


11、谬误:大数据不需要人监督



事实:无监督这个形容词并不意味着算法本身没有人监督。训练无监督学习模型的一个分析师(或一个数据科学家)有一个类似的建模学科作为一个培训的监督模式。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-3-9 15:18:01
"传统采集数据的过程一般是有限的、有意识的、结构化的进行数据采集,例如问卷调研的形式。你能采集到的数据一定是你能设想到的情况。数据的结构化较好。一般的数据库Mysql甚至Excel就能满足数据处理过程。
而互联网时代里,大数据的采集过程基本是无限的、无意识的、非结构化的数据采集。各种纷繁复杂的行为数据以行为日志的形式上传到服务器。专属的例如Hadoop、Mapreduce等工具就不赘述。"


大数据寻求的是海量数据,海量到什么份上?就是全样本。全样本和抽样显然是不同的。过去的研究,由于操作性的关系,很难做到全样本,需要去抽样。抽样的科学做法是“随机”——不过这一点听着容易,做起来相当困难。真正的随机抽样需要花很多钱(利用社交网络关系,通过一个用户做问卷再发动这个用户找更多的人来做问卷,一点都不随机),而且一个无法绕过的弊端在于:如果你使用调查问卷的方法,你很难排除回答者的语言回答一定就是ta心中真正的想法或者实际上的真正行为。
只要有足够多的数据可以处理———不管是你的iPhone上的数据、杂货店购物状况、在线约会网站个人简介或者是整个国家的匿名健康记录,利用对这些原始数据进行解码的计算能力,人们可以获得数不胜数的有价值的见解。甚至连奥巴马ZF也已经赶上了这股潮流,并在5月9日向企业家、研究人员和公众“破天荒”发布了大量“以前难以获取或难以管理的数据”。

大数据的鼓吹者希望人们相信,在一行行的代码和庞大数据库的背后存在着有关人类行为模式的客观、普遍的洞察,不管是消费者的支出规律、犯罪或恐怖主义行动、健康习惯,还是雇员的生产效率。但是许多大数据的传道者不愿正视其不足。数字无法自己说话,而数据集——不管它们具有什么样的规模——仍然是人类设计的产物。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-3-9 15:38:31
谢谢分享!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-3-21 19:34:00
数据价值是由业务目标所决定的,当你的数据分析团队,知道什么因素影响你的业务成功?什么会提高收入和节约成本?那么你就能从小的数据中获取价值,只有当一个企业在小数据中获得有价值的信息后,我们才能去处理好大数据并且从中获取更高的价值。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-3-21 19:38:59
利用大数据资产对任何公司来说都是很重要的,不论公司大小。当大数据的潜力通过可视化达到最大时,之前未看到的趋势就很容易被发现。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群