全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1106 0
2020-08-06
模拟统计是新的黑人
多年来,初学者经常问我应该从统计学开始什么,应该首先做什么,应该优先考虑统计的哪些部分以使他们到达他们想要的位置(通常是高薪工作) 。
现在,由于我几乎完全是自学成才,所以我并不真正认为自己是应该开始的权威,因此我很难以任何坚定的信念回答这个问题。
当然,我对这个问题有一些想法,但是我的经验使它们充满了色彩。
所以我想我会联系一些统计专家,看看他们可以带给聚会什么。
每个帖子中的统计人员都被问到了同样的问题:
如果您不得不重新开始统计,那么您将从哪里开始呢?
答案令人震惊-原来是如何从零开始成为现代统计学家的路线图。
简而言之,如何成为未来的统计学家而无需上一堂课!
频繁统计与贝叶斯统计
统计数据中存在分裂,即在常客和贝叶斯主义者之间。
让我们看看统计学家对此辩论有何评论。
我们从天体物理学家兼火箭科学家(当然,火箭数据科学家)Kirk Borne(Twitter:@KirkDBorne)开始。出乎意料的是,他告诉我,他对成为一名宇航员从来没有任何兴趣!
“我不是统计学家,虽然我确实在一所大学教授过统计学,但是我从来没有学过一门统计学课程。那怎么可能?”
有趣的是,那对我来说也是一样!那么他从哪里获得所有统计数据呢?
“我在本科物理学中学习了基础统计学,然后在作为天体物理学家进行数据分析的多年中,我在研究生院及以后的学校学到了更多。大约22年前,当我开始探索数据挖掘,统计学习和机器学习时,便学到了更多统计信息。从那时起,我一直没有停止学习统计数据。”
这开始听起来像我的统计教育一样令人毛骨悚然。您需要做的就是从天体物理学中删除“ astro”,它们是相同的!那么,他对重新开始统计数据有何看法?
“我本来会从贝叶斯推理开始,而不是将我早年的全部时间都花在简单的描述性数据分析上。那会导致我更早地进行统计学习和机器学习。而且我早该学会了探索和利用贝叶斯网络的奇迹和力量。”
这也是纳什维尔范德比尔特大学医学院生物统计学的作者兼教授弗兰克·哈雷尔(Frank Harrell)想到的点击统计重置按钮(Twitter:@ f2harrell)。他告诉我:
“在学习有关抽样分布或假设检验的任何知识之前,我将从贝叶斯统计开始,并彻底了解这一点。”
Data-Mania(Twitter:@Strategy_Gal)首席执行官Lillian Pierson 在我问她从哪里开始时也提到了贝叶斯统计数据:
“如果我必须重新开始统计,那么我将首先处理3个基本知识:t检验,贝叶斯概率和Pearson相关性”。
就个人而言,我并没有做太多的贝叶斯统计,这是我在统计方面最大的遗憾之一。我可以看到以贝叶斯方式做事的潜力,但是由于我从来没有老师或导师,所以我从来没有真正找到办法。
也许有一天我会-但在那之前,我将继续传递这里统计学家的信息。
在我之后重复:
了解贝叶斯统计信息。
了解贝叶斯统计信息。
学习贝叶斯统计!
统计食谱vs微积分vs模拟统计
当我伸出手并收集报价时,我从Slack的软件工程师,Apache Crunch项目的创始人Josh Wills(Twitter:@josh_wills)那里得到了一个相当神秘的答复(他还称自己为“前统计学家”):
他告诉我:“微积分之前的计算是明智的答案”。
这引起了我的兴趣,所以我问他是否可以详细说明一下,这是他的答复:
“因此,我认为统计数据可以并且可以通过三种方式进行教授:
1.一套食谱
2.从微积分的角度来看-主要是积分而没有积分,以及
3.以计算方式(就像引导程序一样是基本的东西)”
“大多数人都采用食谱的方法,这对理解事物并没有真正的帮助,但是当您不了解微积分时,这就是您要做的事情”。
嗯,我了解“一套食谱方法”,但我不知道有人还在使用微积分方法。他走得更远:
“我当时是数学专业的学生,??所以我采用了基于微积分的方法,因为那是您过去所做的。您通常会对积分的计算技术表示敬意来做一些积分,而这些积分很难通过积分来完成。但是,尽管计算方法是最后发现的,但它实际上是教授统计信息的正确而又好的方法。”
哇,为此感谢上帝-我以为他是在说我们都应该学习微积分方法!
“计算方法可以使不懂微积分的人们可以使用,无论如何,实际上这是您在现实世界中统计难题中最困难的部分。演算方法在历史上是有趣的,但是(我对此感到here异)应该将它放到统计学思想史上的后续课程中,而不是介绍性课程的一部分。
有趣的是,从这个角度看统计的发展,并显示了我们已经走了多远-特别是在过去的几十年中计算机和计算能力得到了发展。
想到20年前的博士学位时,很难掌握数据,而当您获得数据时,必须将计算机联网才能获得足够的计算能力,这真是令人难以置信。现在,我们都陷入了数据纠结之中,好吧,我们仍在努力获得足够的计算能力来完成我们想要的工作,但它仍然比我们过去拥有的更多!
模拟统计是新的黑人
Google决策情报负责人Cassie Kozyrkov(推特:@quaesita)对我的观点也很有趣,他告诉我说:
“可能喜欢用打印的统计表制作篝火!”
好吧,尽管如此,但认真的说,您将在哪里再次从统计数据开始?
“模拟!如果必须重新开始,我想从基于模拟的统计方法开始”。
好,我和你在一起,但是为什么要专门模拟呢?
“大多数STAT101课堂上讲授的'传统'方法是在计算机出现之前开发的,不必要地依赖于限制性假设,这些假设将统计问题填入可以用常见分布和那些讨厌的过时印刷表分析的格式”。
知道了 那么,您在打印表上究竟得到了什么?
“好吧,我经常想知道传统课程是否弊大于利,因为我一直看到他们的幸存者犯了“ III类错误” —正确回答了方便的错误问题。通过仿真,您可以回到第一原理并发现统计学的真正魔力。”
统计有魔力吗?
“当然可以!我最喜欢的部分是通过模拟学习统计信息会迫使您面对假设所扮演的角色。毕竟,在统计数据中,您的假设至少与数据一样重要,甚至更重要。”
在提出建议时,KDnuggets(Twitter:@kdnuggets)的创始人Gregory Piatetsky 建议:
“我将从雷奥·布雷曼(Leo Breiman)关于两种文化的论文开始,再加上我将研究贝叶斯推理”。
如果您还没有读过这篇文章(开放式访问),那么Leo Breiman会提出算法建模的案例,其中将统计数据模拟为黑盒模型,而不是遵循规定的统计模型。
这就是Cassie的目的-统计模型很少适合现实世界的数据,而我们要么试图将数据塞入模型中(获得对错误问题的正确答案),要么将其切换并做一些事情完全不同-模拟!

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群