经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
经济学论坛 三区
›
经济社会统计专版
大数据和统计学矛盾?
楼主
胖胖小龟宝
34781
270
收藏
2014-02-21
通常,对于新的IT关键词必定会出现“反对派”。最近,“大数据”就成为被攻击的对象,诸如“大数据失败论”等论调也明显增加。
业界对大数据抱着极大的期待,这一点从大量的大数据研讨会和展示会风潮就足以证明。这些年来,除了云计算浪潮,缺乏热烈话题的IT业界而言,大数据是期待已久的大型关键词,也许大数据会成为恢复业界活力的强心剂。
与此同时,日本ZF提出新的IT战略--“将行政数据向民间开发,以便不断创造新商务”。也就是说,如何有效利用数据,推动商业成功,业已成为国家战略的一环。
虽然笔者既不是强烈的赞成派也不是反对派,但通过以往的采访经验,对处理数据的难度有着清醒的认识。更何况涉及到大数据,其难度显而易见。
笔者周边很多人对大数据也有着各种不同的看法,提出各种问题。当然这些对于IT业界的读者而言,都是理所当然的事情,笔者说这些也许是班门弄斧了。但是,正是这些众所周知的道理通常也是非常重要不可忽视的。因此,下面笔者将重新提出大数据的“陷阱”,探讨如何才能避免运用大数据的失败。
是否真正需要大量的数据
首先,必须明确的一点是,是否真正需要大量的数据。
在一次活动中,一位统计分析的专家在谈到大数据时说:“本来统计分析学是如何通过少量的取样,去了解事务整体的学问。例如,电视的收视率调查就是一个典型的事例,这类调查就是通过极少的样本,来掌握日本全国的收视状况。如果目的明确,并不需要大量的数据。”
由于上述言论出自目前作为“数据科学家”备受瞩目的统计分析方面的专家之口,让笔者不禁大吃一惊。这就是说,只要有一定量的数据,无关数据数量,分析的结果并不会有很大的差别。如果果真如此,不禁让人产生怀疑,即到底大数据是为何而存在。
听到上述观点,使人感到大数据所面临的矛盾的应当不仅仅是笔者一人。本以为通过大数据分析,满怀期待能够发现以往没有认识到的新的东西,但有时其结果不过是已有所知的事实而已。如果企业为系统开发投入数十亿日元,得出的不过是证明资深职员“经验”的结论,这也未免让人难以接受。
正因为如此,就有必要重新考虑为何需要大数据这一问题。例如,企业需要明确通过将有交易往来的公司和社交媒体等本企业外的大量数据进行组合,是为达到何种目的等,即有必要事先制定大数据的目标。
数据的“质量”有无问题
第二点是由谁来维护大量的数据,即数据的“质量”如何能够得到保障。
笔者曾听说这样一件事。某企业的总经理每个月都会收到有交易往来的IT供应商的宣传(PR)杂志,但收件人的头衔不是“总经理”,而是他曾经兼任公司CIO时的头衔“常务董事”。虽然将头衔搞错,但还是都能收到,因此并没有太在意。但当这家IT供应商的总经理到公司进行礼节性拜访时,就提出了希望改一下头衔的想法。
而这家IT供应商的新的卖点是大数据,公司的总经理当场表示回去马上会进行修改。起初以为这点事情对于运营大数据业务的IT供应商而言不过是举手之劳,一定会进行纠正。但是,等到下一个月他收到的的PR杂志时,发现收件人的头衔仍然是“常务董事”。这位总经理通过两本PR杂志感到仿佛看到了大数据的现状,因此他非常失望地说:“归根到底IT供应商并没有维护顾客数据库”。
上述例子虽然是顾客数据,而不仅仅是顾客数据,说到大数据必然还需要处理很多各种各样的企业外部的数据。但是,这些数据是否是最新数据,其数据的精确度又如何等数据的“质量”就会非常重要。分析出处不明的数据将毫无意义。如果顾客数据不能随时进行维护,也就不会产生任何价值。不应当将当初以为是宝山的大数据,变成一座堆满垃圾的山。
是否忽视了现场职工的工作干劲
第三点就是企业不仅应当努力培养数据科学家,同时也需要提升现场职员的分析数据的能力。如果在店头等现场直接接触顾客的员工变得“擅长数字”,他们也能够常常通过数据考虑事情并进行判断,这样的企业必定会强大起来。
例如,有一家超市的店头销售员就从与顾客的对话中得到启发,通过购进新的商品或是改变商品陈列的方法,提升了销售额。又比如,在特快列车上负责销售的员工,发现似乎“可吸烟座位的咖啡畅销”,当他整理出不同列车的销售业绩,结果发现确实是如此。于是决定在吸烟车厢集中推销咖啡,结果咖啡的销售量明显增加。
当然,通过现场增加的销售额,也许和利用大数据获得的销售数字相比很小,而且其分析能力也远远不及数据科学家。但是即便如此,如果通过将这种方式横向拓展到其他现场,积累的数字也会非常可观。同时,最为重要的是,这种方式能够提升现场员工的工作动力。
实际上,某零售企业自从将其销售分析统一由总公司实施后,店头员工就失去干劲,甚至出现退职的员工。这说明只依靠上级的指令,则会降低现场的职业道德。因此,这家公司决定给予现场员工自由分析判断的职能,由此店头又重新恢复了活力。虽然大数据非常重要,但是如果将权限集中在某些部门,则会导致现场丧失工作干劲。
以上三点实际上不仅仅对大数据而言非常重要,而且同时适用于整个信息系统。大数据是IT业界期待已久的关键词,为使其成长壮大,就需要脚踏实地的努力,而不应被其华丽的部分所束缚摆弄。正因为如此,笔者认为提出的上述三点需要重新铭记心中。
(日)ITpro 大山 繁树
楼主是看了这文觉得有意义特地转给大家的。的确,统计学也许刚刚建立这么学科的目的就是从小样本去推断总体,当然,我始终忘不了老师的那句话(样本越多,你的推断相对越准确)。不知坛子里的同学有没有做过问卷调查,每次的问卷调查总是信心满满的设计,满心热情的投发,近乎绝望的收取和录入数据。所以楼主感觉无论是做论文还是工作上做分析,数据利用的前提条件无疑是数据是真实准确有效的。在这个大数据流行的当下,我仿佛看到了统计学的一个新的希望。我不敢说大量的数据能提高多大的统计意义,但相互验证也许是大数据给我们的最好途径。
不知道大家对此是如何看法,欢迎一起讨论。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
西门高
2014-2-21 11:42:13
看看
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
清汀
2014-2-21 15:06:03
3ks
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
板凳
sqy
2014-2-21 16:35:44
跟10年前热炒的数据挖掘概念一样,大数据有一定的价值,但也取代不了统计学!
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
报纸
rayzhangfy
2014-2-21 21:15:03
非常感谢
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
地板
平军
2014-2-21 23:16:42
数据越多,奇怪的行为方式才生的结果被容纳的可能性越大,分析的难度越大,具有意义的结论越不容易得到。我自己的看法
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
点击查看更多内容…
7楼
hwy12345hit
2014-2-22 13:13:01
欢迎大家讨论,受益匪浅
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
8楼
yger
2014-2-22 20:22:50
不错!
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
9楼
cherubiclee
2014-2-22 20:44:17
得出结论的成本不一样,取得样本越多成本越高
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
10楼
pmw12
2014-2-24 09:30:08
不错
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
11楼
wangjie1995389
2014-2-25 14:42:21
大数据与统计的关系,确实值得好好琢磨
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
12楼
渔夫
2014-2-26 14:48:58
这个观点简单地把大数据理解为大的数据,我认为这是不准确的。
大数据除了大,还有其他两个方面含义。
1. 大, 多大叫大数据呢? 至少需要一个标准,数据量超过计算机内存。也就是说,即使你执行抽样技术选取样本分析,你也需要技术来克服这个问题。
2.复杂,传统的数据库,sql,将数据格式好后存到数据库里,分析人员再调出来。而如今数据分布在不同数据库,比如亚马逊的销售记录,google 的搜索记录,医院的门诊数据,这些数据都存在不同数据库中,大数据解决的就是如何集合分析这些没有格式化的数据。
3. 动态,销售,搜索,和门诊数据不仅多而杂,还在不断动态变化中。比如禽流感病例,如何迅速搜集并分析这些数据变得非常重要。
大数据 是因 网络技术等硬件技术发展倒逼而发展起来的,所这大数据的到来,统计理论也需要更新。比如这么大的数据,传统的 P value是否还有效? 动态的 数据更新是否需要进行 bonferroni correction?( Frequenist)还是给 Bayesian Statistics 发展的一次机遇?
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
13楼
胖胖小龟宝
2014-2-26 16:24:13
渔夫 发表于 2014-2-26 14:48
这个观点简单地把大数据理解为大的数据,我认为这是不准确的。
大数据除了大,还有其他两个方面含义。
最后那段说的的确有道理,大多数的数据分析都是静态的一个分析(起码数据固定了),但是大数据可以说是时时更新的,怎么去反映这个动态很关键。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
14楼
Mr.sky
2014-2-26 16:32:40
不太了解,学习一下
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
15楼
shanshantz
2014-2-26 16:35:15
看看
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
16楼
laughlaugh
2014-2-26 16:42:02
看看
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
17楼
qingbo0221
2014-2-26 16:43:36
看看
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
18楼
xtldy
2014-2-26 16:49:08
其实,统计学中的抽样理论就在于通过样本来推测总体,为什么用样本数据而不用总体数据?大家可以想想我们国家为什么隔10年才进行一次全国人口普查,原因很简单进行人口普查需要耗费大量的人力、物力和财力。现在之所以出现了“大数据”之说,关键就在于借助信息科学技术,使得数据获取和处理都相对容易一些。如果有了总体数据,当然就不需要进行推断了!
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
19楼
stone20025
2014-2-26 16:51:27
没啥矛盾,只是侧重点不一样罢了
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
20楼
yangkongsong
2014-2-26 17:09:16
不错,有道理。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
21楼
jinnwell
2014-2-26 17:09:52
我个人觉得统计学研究和大数据研究,类似于农作物杂交技术和转基因技术之间的关系:目标相同,方法不同而已,而且各有各的优势和劣势。转基因技术作为新兴技术,其效果是显而易见的,但是同时所蕴含的风险也是巨大的,这也是为什么有很多人反对转基因。同样,对大数据研究来说,就像楼主转的帖子的帖主认为的那样,也有很多说不清道不明的缺陷。从宏观上来讲,这些新兴技术未来究竟对现代人类有正面还是负面的影响,只能由后人来评判。现在我们做的任务就是要带着批判的态度,积极大胆的研究新兴技术,同时在推广应用的过程中慎之又慎。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
22楼
owendgh
2014-2-26 17:22:57
非常谢谢!
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
23楼
tuoney
2014-2-26 17:34:10
大忽悠
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
24楼
yun鹏雅
2014-2-26 17:37:56
真的有奖吗
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
25楼
而已加油88
2014-2-26 17:40:18
看看
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
26楼
alanjanie
2014-2-26 17:46:22
大数据的大不仅仅是说数据的量很大,同时也是数据的类型要大。很多时候分析问题,受限于数据类型,再怎么在“量”上变大,可能得出的结论跟运用统计得出的结论差不多。而有时候把一些此前被忽略的数据添加进来,进行综合分析,可能会得到更全面更有效的结果
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
27楼
kaixin19880103
2014-2-26 17:46:23
大数据带给我们一种看待问题的方法,如果想要真正解决问题不能仅仅靠大数据。如何处理大数据,运用好大数据是今后需要发展的方向。如果数据挖掘和处理能力很强,大数据的意义就会很好的展现出来。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
28楼
sddx1
2014-2-26 17:58:54
说好的奖励呢
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
29楼
sunhui7108
2014-2-26 18:01:55
支持!
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
30楼
boiledwater
2014-2-26 18:03:18
有什么奖励?
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
首页
上一页
下一页
跳至第
页
相关推荐
大数据有何用途
大数据和统计
双面大数据:是天使也是魔鬼
双面大数据:是天使也是魔鬼
攻克大数据——「数据科学家」的八种技能(上)
认知计算真的能解决大数据难题吗?
5个能从大数据受益的职业
浅析大数据及企业策略
当今世界最NB的25位大数据科学家
当今世界最牛的25位顶尖大数据科学家 !
栏目导航
经济社会统计专版
站务与外事
Stata专版
论文版
悬赏大厅
会计与财务管理
热门文章
Nature点赞!哈佛MIT最新作:AI科学家时代来 ...
CDA 认证考试大纲 2025 重磅更新:一二级考 ...
达富发投资关于中百集团行情数据操作分析与 ...
GTAP11运行扩展数据库出错,希望高手指点。
2025秋季大摩宏观团队闭门会议纪要
建筑的想象之整理补充笔记
英文书籍
中国移动:智能体互联网技术白皮书2025
超越普里瓦洛夫无穷乘积与它对解析函数的应 ...
超越普里瓦洛夫数项级数卷
推荐文章
10月重磅来袭|《打造Coze/Dify专属学术智能 ...
高校老师和学生都在偷偷上的智能体课,到底 ...
最快1年拿证,学费不足5W!热门美国人工智能 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群