全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
549 0
2022-07-06
前几天我遇到了一位 40 年的研究生朋友。当他获得博士学位并成为学术杰出人物时,我以统计科学硕士学位离开了该项目,首先进入了非营利组织,然后进入了商业世界。我们俩最近都从全职工作中退休,现在通过合同咨询来满足我们对工作的渴望。

我的朋友最近读了一篇开创性的论文数据科学 50 年由斯坦福大学教授大卫·多诺霍(David Donoho)撰写,并希望我了解这种对 DS 历史的解释如何映射到我在数据和分析方面的职业生涯。谢谢提问,我回复了。结果很好。

Donoho 论文的 Cliff Notes 版本是,当前数据科学领域的发展已经进行了很长时间,源于对 60 年代学术统计范围狭窄的挫败感。“50 多年前,约翰·图基呼吁改革学术统计。在“数据分析的未来”中,他指出了一种尚未被认可的科学的存在,其感兴趣的主题是从数据中学习,或“数据分析”。十到二十年前,约翰·钱伯斯、比尔·克利夫兰和利奥·布雷曼再次独立地敦促学术统计学将其边界扩展到理论统计学的经典领域之外;钱伯斯呼吁更加重视数据准备和呈现,而不是统计建模;Breiman 呼吁强调预测而不是推理。克利夫兰甚至为他设想的领域提出了一个吸引人的名字“数据科学”。简而言之,数据科学将统计学从其数学根源推进到更平衡的数学、数据和计算焦点。我鼓励花一个小时左右的时间来阅读这篇重要的文章。

我在读研究生的时候就感觉到了这种分歧的开始,我意识到一些教授对统计科学“过度数学化”的担忧,以及显着的计算进步的出现,这些进步提升了每条分析船。1979 年,我几乎所有的计算机工作都在使用 FORTRAN 和 PL/I 的大型机上进行。到 1982 年,大多数都在带有 Unix/C/Ingres 的小型计算机和带有 MS-DOS 的 pc 上。SAS 最初是为 IBM 大型机和当时首选的统计软件编写的,在 80 年代初被移植到小型机和个人电脑上。同样在那个时候,像 bootstrap 这样由计算推动的重采样技术在统计领域开始成熟。

我清楚地记得我作为内部医院顾问的第一个任务是预测医院网络中脑血管疾病的患病率。组装数据并应用回归/时间序列技术是小菜一碟——这正是我在研究生院担任研究助理时所做的工作。生活很好。

不过没那么快。接下来是设计和实施一个围产期登记系统,该登记系统在每年超过 10,000 条出生记录中累积了 500 个属性。最重要的挑战是数据管理和计算——组装、整理、清理、报告和管理数据是我的工作。因此,我根据需要开发了数据库和编程专业知识,最终成为了一名有能力的数据程序员。唉,统计工作远远落后于实施当时新的关系数据库系统来管理数据。

从 1985 年到 2005 年,这些不断发展的数据管理和争吵技能推动了我的业务咨询工作,这些举措最初称为决策支持,然后最终称为数据仓库/商业智能 (DW/BI)。数据是最重要的,其次是处理、清理和管理的计算过程。通常情况下,像 BusinessObjects 和 Cognos 这样的 BI 工具被叠加在使用 Oracle 或 Microsoft SQL Server 等数据库软件实现的数据存储库上。SAS软件连接到DW进行统计分析。有时会提供成熟的分析应用程序。

15 年前,开源的兴起改变了分析领域,PostgreSQL 和 MySQL 等数据库,Python 和 Ruby 等敏捷语言,以及 R 统计计算平台,鼓励了对分析的更大承诺,并促进了其产品的公司的出现是数据和分析。将 Tableau 等专有的自助分析/可视化工具添加到数据分析组合中。在这段时间和目前,我在数据探索和统计分析方面所做的工作比早些年要多得多。在许多情况下,EDA 就足够了。然而,当它发生时,统计重点更关注纯粹的预测/预测,而不是经典统计的推理生成模型——多诺霍指出的另一个对比。

当我根据 Donoho 的六个大数据科学部门评估我的职业生涯时,我觉得我与前五个部门的工作相当密切:1. 数据探索和准备 2. 数据表示和转换 3. 使用数据计算 4. 数据建模和5. 数据可视化和展示。只有 6. 关于数据科学的科学,现在成倍增长的学术追求,尚未得到解决。

我的教授朋友吸收了我的年表,认为他的职业主要是深入研究 4. 数据建模和 6. 关于数据科学的科学。虽然我们都对我们的职业生涯表示总体满意,但我们承认因为没有广泛的机会接触所有六个人而感到有些忧郁。也许今天的数据科学家将面临每一个挑战。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群