全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
909 0
2020-08-31
可用性问题
将数据科学仅视为技术专业(例如编程)可能会使您偏离目标。在跳入成熟的数学课程之前,先关注数据科学的数学可用性,可以为您节省大量时间。
我写这篇博客是因为我在成为数据科学家时犯了一些错误。我认为很多人都在进行相同的过渡,您可能是其中之一,或者您知道其中一个(或几个)。我不希望您犯同样的错误,因此,本博客文章。即使您不是像我这样的工业软件开发人员,其中的一半仍然对您非常有用。开始了:
背景
最近,我读了Gil Press的一段非常短的数据科学历史,而且像往常一样,历史总是很有趣:
https://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-histo ...
在阅读本书时,我想起了2005年开始学习编程的时间。我对计算的历史,软件的历史,硬件的历史以及开源软件的起源,黑客的历史,GNU的起源如此感兴趣。项目,伯克利UNIX已有20年了,如何成为一名黑客,等等。我记得在一个BSD所使用的系统程序中遇到了一个十六进制指令,十六进制指令是程序员的生日。早在高级语言表示C的时候,他就需要在程序内编写一个独特而令人难忘的指令,并用了自己的生日。我不记得那是什么,但实际上是这样的:0x20191211(仔细观察,依次为0xYEAR,MONTH和DATE)。那是什么日子= :-)。作为一名程序员,这是一段了不起的旅程。我每天都写代码。我屏住呼吸写代码。没有什么能取代编程的乐趣。当我寻找数据科学的历史时,我遇到了Gil Press写得很好的一篇文章。它使我想起了过去。我认为,仅凭逻辑和训练有素的技能,您就无法对专业充满激情,内心也必须参与其中。实际上,如果您想获得大量的技能,那么心脏是首要条件。
错误一:不了解两种文化
统计数据已经存在了很长时间,并且在大数据到来之前,它已经能够很好地处理各种数据。传统上,统计信息已经处理了很长时间。您可以找到很多有关小型数据与大型数据的文章,但是这篇文章不是关于比较的。这篇文章是关于我在Gil的文章Leo Breiman中注意到的一位作者,他在2001年写了《统计模型:两种文化》。这是摘要:
使用统计模型从数据得出结论有两种文化。人们假定数据是由给定的随机数据模型生成的。另一个使用算法模型,并将数据机制视为未知。统计界一直致力于几乎完全使用数据模型。这项承诺导致了不相关的理论,可疑的结论,并且使统计学家无法研究大量有趣的当前问题。无论是在理论上还是在实践上,算法建模都在统计领域之外迅速发展。它既可以用于大型复杂数据集,也可以用作较小数据集上数据建模的更准确和信息量更大的替代方案。如果我们的目标是使用数据来解决问题,
这是很多开始从事数据科学工作的人们所忽略的非常非常重要的观点。当我将职业生涯从软件开发人员转到数据科学家时,令我深受打击的是所涉及的数学,尤其是统计学,概率,线性代数和微积分,其重要性几乎相差无几。因此,我花了几个月的时间来学习全部四个。很好,但事实并非如此。虽然我学到的所有数学都很有趣,但更大的问题是:我是否需要它来进行过渡?答案是否定的。我学到了所有这些,并且发现当我处理现实生活中的大数据时,它没有多大用处。当您在企业中使用数据科学解决问题时,那么多的数学,一本书中的许多练习,理论问题以及深入的研究或研究都不会变得有用。你一定不要做。我觉得自己就像住在一个山洞中一样,学习了我所需要的所有数学知识,当我从山洞中走进一家软件公司,软件即企业的真实世界时,我所有的梦想都破灭了。因此,我现在可以凭经验说里奥·布雷曼(Leo Breiman)是正确的。对于工业软件开发人员来说,这不是最好的时间利用方式。对于希望在软件行业转移其职业的软件开发人员来说,这不是最好的时间利用方式。我应该知道的更好。我意识到这很晚。我无法恢复那几个月的生命。我所能做的就是利用这个错误来做出更好的决定。
错误之二:不了解产业重心的转变
时代变了。在过去的30年中,已经生产了大量的软件。马克·安德森(Marc Andreessen)甚至说软件正在吞噬世界。我认为确实是这样:
在过去的几年中,软件行业的关注点已经从创建大量软件到使用该软件转变了。随着技术和硬件的所有进步,仍在创建软件,但是并不是所有的嗡嗡声都在这里,现在嗡嗡声围绕可用性。它已从C转换为Python。C模型表示,硬件的时间比开发人员的时间重要,因为那时候硬件非常昂贵。Python模型表示,开发人员的时间比硬件更重要,因为硬件现在很便宜,而将不必要的时间投入到开发人员中会给企业造成损失。随之而来的是创造可用性。而且,这种关注点的变化正以惊人的速度扩展,据Jeetu Patel称,软件仍在吞噬整个世界,但是方式和途径不同:
https://techcrunch.com/2016/06/07/software-is-eating-the-world-5-ye ...
错误三:无知者的无知:社交媒体的兴起和互联网的扩展
与过去的十年相比,互联网(或网络)现在在世界几乎每个地方都可以使用。人们通过社交媒体彼此联系。社交媒体建立在网络上作为其骨干,现在它已经达到了几乎完全涉及用户的程度。我们以人类历史上从未有过的联系方式相互联系,并且我们使用各种用户可以使用的最先进的工具(以经济术语)相互交流。这改变了软件的开发方式以及使用方式。社交媒体的可用性处于鼎盛时期,因此生成的数据大小也是如此。您今天看到的数据的90%仅在最近几年生成:
https://www.iflscience.com/technology/how-much-data-does-the-world -...
根据Jeff Desjardins的说法,到2025年,每天将产生463艾字节的数据。
企业在问一个重要的问题:我们正在处理所有这些数据吗?
从以上三个错误中我们可以学到什么?
首先,购买一本学术界正在使用的有关统计,概率或线性代数的书将完全浪费您的时间。本书本身可能非常有用,并且在软件行业中的地位不高。当您打算在软件行业的大数据领域工作时,您需要知道该行业使用的工具以及在哪里可以学习它们。这很重要。学术书籍是次要的。不要主修小事。
因此,这里的未成年人就是Leo Breiman所谓的数据建模,即传统统计。这里的主要内容是与复杂的大数据世界一起工作的算法建模,技术和方法。您正在查看《统计学习入门》(ISL):
这本书是您需要花费大量时间的地方。这本书当然有点数学,但是您必须习惯于这样做。至少它所包含的数学内容少于统计学习要素(ESL)所产生的影响,就像计算机编程艺术一样,这伤了我的脑筋。ESL更像是一本面向研究的书,而ISL更倾向于真实的数据分析。您可以从我上面链接的主页上免费下载这两本书。我建议您购买纸质版,因为在计算机上阅读800页的书并不有趣。根据我的经验,从纸质版中学习时,人们会吸收更多的内容,并且会记住得更好。
现在,并不是说传统的统计数据用处不大。大数据中仍然使用许多传统概念,它们是理解与数据处理相关的所有内容的基础。因此,您仍然需要花费少量时间在传统统计和概率上。是的,这是次要时间,但仍然是您需要投资的时间。
除了这些MOOC,还需要对现实中统计和概率的实际用法有更广泛的了解。我向所有人推荐这本出色的书,无论他们是否想成为数据科学家,都可以阅读:
即使它写于1988年,本书中提到的概念也是常绿的。这本书将深刻影响您对数学的思考方式(嗯,主要是关于统计和概率的准确性)。
这就是我现在站在的地方。我已经完成了上面提到的那些MOOC,并且阅读了Innumeracy,还订购了ISL。我将通过ISL进行工作,并将在几周后分享我的经验。我也在努力寻找和获得数据科学工作时遇到的障碍。一旦我成功克服了所有障碍,我也会写这篇文章。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群