多年来,我经常被初学者问他们应该从哪里开始统计,他们应该首先做什么,以及他们应该优先考虑统计的哪些部分以使他们达到他们想要的位置(这通常是一份更高薪的工作) .
现在,由于我几乎完全是自学成才,我并不真正认为自己是应该开始的权威,我很难以任何坚定的信念回答这个问题。
当然,我对这个主题有一些想法,但它们被我自己的经历所影响。
所以我想我会联系我们的一些统计朋友,看看他们能为聚会带来什么。
这篇文章中的每个统计学家都被问到了同样的问题:
如果你不得不重新开始统计,你会从哪里开始?
答案令人震惊——结果证明它们是如何从零开始成为现代统计学家的路线图。
简而言之,如何在不需要任何课程的情况下成为未来的统计学家!
频率统计与贝叶斯统计
统计学存在分歧,那就是常客论者和贝叶斯论者之间。
让我们看看统计学家对这场辩论是怎么说的。
我们从天体物理学家和火箭科学家(好吧,火箭数据科学家) Kirk Borne(Twitter:@KirkDBorne )开始。令人惊讶的是,他告诉我他从来没有对成为宇航员感兴趣!
“我不是统计学家,也从未上过一门统计学课程,尽管我确实在大学里教过。这怎么可能?”
有趣的是,这对我来说是一样的!那么他从哪里得到所有的统计数据呢?
“我在本科物理中学习了基本的统计学,然后在研究生院及以后学到了更多,同时作为天体物理学家多年从事数据分析。大约 22 年前,当我开始探索数据挖掘、统计学习和
机器学习时,我学到了更多的统计数据。从那时起,我就没有停止学习统计学”。
这听起来有点像我的统计教育。您需要做的就是从天体物理学中删除“天文”,它们是相同的!那么他对重新开始统计数据有何看法?
“我会从贝叶斯推理开始,而不是把我早年的所有时间都花在简单的描述性数据分析上。那会让我更早地进行统计学习和机器学习。而且我会更快地学会探索和利用贝叶斯网络的奇迹和力量”。
这也是纳什维尔范德比尔特大学医学院的作者兼生物统计学教授弗兰克·哈雷尔( Frank Harrell )对按下统计数据重置按钮的想法(推特: @f2harrell)。他告诉我:
“我会从贝叶斯统计开始,并在学习任何有关抽样分布或假设检验的知识之前彻底了解这一点”。
当我问她将从哪里开始时, Data-Mania(Twitter:@Strategy_Gal )的首席执行官 Lillian Pierson也提到了贝叶斯统计数据:
“如果我必须重新开始统计,我会从解决 3 个基本问题开始:t 检验、贝叶斯概率和 Pearson 相关性”。
就个人而言,我没有做过很多贝叶斯统计,这是我在统计方面最大的遗憾之一。我可以看到以贝叶斯方式做事的潜力,但由于我从未有过老师或导师,所以我从未真正找到方法。
也许有一天我会——但在那之前我会继续传递这里统计学家的信息。
跟着我重复:
学习贝叶斯统计。
学习贝叶斯统计。
学习贝叶斯统计!
统计食谱 vs 微积分 vs 模拟统计
当我伸出手并收集报价时,我得到了 Josh Wills(推特:@josh_wills )的一个相当神秘的回应,他是 Slack 的软件工程师和Apache Crunch 项目的创始人(他也将自己描述为“前统计学家”):
“在微积分之前进行计算是最简洁的答案”,他告诉我。
这引起了我的兴趣,所以我问他是否可以详细说明一下,这是他的回复:
“所以我认为统计数据可以通过三种方式教授:
1.一套食谱
2. 从微积分的角度来看——主要是积分,什么不是,和
3. 计算上(就像作为基础的引导程序)”
“大多数人都使用食谱方法,这对理解东西没有帮助,但是当你不知道微积分时你会这样做”。
啊,我了解“一套食谱方法”,但我不知道有人还在做微积分方法。他更进一步:
“我是数学专业的,所以我采用了基于微积分的方法,因为那是你当时所做的。您通常会在做一些积分时对通过积分很难做到的分布的计算技术表示赞同。但计算方法,尽管它是最后发现的,但实际上是教授统计数据的正确和好方法”。
唷,为此感谢上帝——我以为他是在说我们都应该学习微积分方法!
“不知道微积分的人可以使用计算方法,无论如何,它实际上是你在现实世界统计问题的困难部分中使用的大部分方法。微积分方法在历史上很有趣,但是(我觉得这样说是异端)它应该被归入统计思想史的后期课程——而不是介绍序列的一部分”。
有趣的是,从这个角度来看统计数据的演变,并展示了我们已经走了多远——尤其是在过去的几十年中计算机和计算能力的发展程度。
想想 20 年前我攻读博士学位时,很难获得数据,当你确实获得一些数据时,你必须将计算机联网以获得足够的计算能力,这真是令人兴奋。现在我们都在数据中游泳,而且我们仍然在努力获得足够的计算能力来做我们想做的事——但它仍然比我们以前拥有的要多得多!
模拟统计是新的黑色
我还从谷歌决策智能主管 Cassie Kozyrkov(Twitter:@quaesita)那里得到了一个非常有趣的观点,她告诉我她会:
“可能喜欢用打印的统计表来制造篝火!”
好吧,阿门,但说真的,你会从哪里重新开始统计?
“模拟!如果我必须重新开始,我想从基于模拟的统计方法开始”。
好的,我和你在一起,但为什么要专门模拟呢?
“大多数 STAT101 课程中教授的‘传统’方法是在计算机出现之前的日子里开发的,并且不必要地依赖于限制性假设,即把统计问题塞进可以用常见分布和那些讨厌的过时印刷表格分析处理的格式”。
得到你。那么,您对打印的表格到底有什么看法?
“嗯,我经常想知道传统课程是否弊大于利,因为我不断看到他们的幸存者犯‘第三类错误’——正确回答了错误的方便问题。通过模拟,您可以回到最初的原理并发现统计的真正魔力”。
统计有魔法吗?
“当然可以!我最喜欢的部分是通过模拟学习统计数据迫使您面对假设所扮演的角色。毕竟,在统计学中,你的假设至少和你的数据一样重要,如果不是更重要的话。”
编辑推荐
1、
2022年300个以上最佳免费数据科学课程
2、
大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、
机器学习模型方法总结
4、
历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、
机器学习如何应用于商业场景?三个真实的商业项目
6、
数据工作者的自我修养 | 哪些技能是必不可少的?
7、
《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、
文本挖掘常用的107个语料库
9、
一图读懂“东数西算”工程
10、
零基础转行数据分析,看这篇文章就够了
DA内容精选