全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
781 0
2020-10-22
学习机器学习
可以理解,没有多少人会像这样介绍自己。然而,对我而言,数据塑造了我的职业道路,并为我的职业生涯带来了许多激动人心的机会。这并非易事-我认为任何企业家都会告诉你同样的事情,并且肯定会围绕自我创业的个人对内容和媒体给予关注。但是我不是在这里向您介绍创业的艰辛。相反,我是在这里告诉您我如何成长(并继续成长)成为一个我从未真正打算进入的行业的角色。我们非常幸运地生活在信息时代,像我这样的自言自语将永远不会耗尽资源来学习他们在给定领域取得成功所需要的东西。如果您有兴趣进入机器学习/数据科学领域,
消费市场研究事业
我是如何进入这个行业的?并非如此-我仍不确定我最终将如何担任市场研究项目经理。当您即将大学毕业时,我认为您倾向于拥有“喷涂与喷涂”的心态来获得第一份工作。在线解雇这些简历,或将其从高楼大厦的顶部放下来,像自动收录机游行一样,看看有什么用。
虽然我没招待来自多个业务的访谈,我最终接受了印第安纳州印第安纳波利斯的入门级的定位,我仍然不能记得曾经深入到最初(一定是那些股票磁带恢复的一个)。因此,我开始尝试使用数据来推动业务决策。  
当有人问我什么是“消费者市场研究”时,我通常会告诉他们这是调查和焦点小组。   
“哦,是的!我现在知道你的意思了。是的,我从不那样做。”
有趣的是,多年来有多少人对此做出了同样的反应!这使我想知道究竟是谁回应了这些在线调查,并且最近参加了焦点小组。消费者市场研究的全部目的是了解消费者的思想:是什么促使他们购买?是什么让他们选择一种产品而不是另一种产品?他们将来会买什么?我们通过分析数据来回答这些问题。  
最初,我很喜欢这个行业,因为我发现它吸引了消费者的眼球。虽然这是私营企业,但在研究设计和统计分析时仍然存在学术界的疑虑。此外,研究(无论是与学术或商业相关的研究)都是一门艺术和一门科学,这在像我这样长大的乐高积木玩耍,读小学的非虚构历史或科学书籍的人中并不乏阅读程序(我的母亲不得不争辩说我实际上已经读过了,以便赢得我的披萨派对)!   
我继续从事消费者市场研究工作一段时间,最终移居芝加哥,最初在一家精品店工作,后来成为世界上最大的市场研究公司。
但是我对这个行业不感兴趣。你为什么会问?好:
人们普遍不愿放弃“面包和黄油”的调查和焦点小组的方法,尽管与去年同期相比,回应率已经大大下降,并且出现了各种新方法,例如社交媒体挖掘。
数据质量非常糟糕,似乎没人在乎。公然的失实陈述,带有逻辑谬误的调查允许无意义的答案,不具有代表性的样本,以及每当我们的安全措施失效时,“专业调查参与者”(如果不是自动化的话,则是“调查机器人”)的普遍增长都会对数据造成欺骗。
高管和客户经理基于对基本统计租户的误解(例如,仅专注于任意p值解释)为客户提供“见解”和“建议”。毫无疑心的客户相信他们所讲的内容,很少质疑这种方法。本质上,盲人领先盲人。
大约在这个时候,诸如“大数据”之类的词开始进入企业高管和记者的对话词典。我很感兴趣,以我的典型方式,我想了解更多。我发现这似乎是了解消费者思想的另一种方法。实际上,我们周围的每个地方都在收集数据。智能手机和互联网使这成为现实。此外,当人们没有被直接质疑甚至一开始就意识到自己是在提供数据时,人们更有可能提供有关其行为的更好数据。我认为格言“动作胜于雄辩”在这里很合适。自从我们今天采取的几乎所有行动(例如FitBit生物识别技术),我们在网上或在商店购买的商品,我们如何驾驶汽车,
当时,我与组织中的许多高管和销售团队负责人接触,提出了一系列关于如何利用这些新数据源从调查/焦点小组方法过渡的想法。我听说,如果您抱怨业务中如何做一些“顶级黄铜”(或者,如果有这样的事情,我可能是“中间铜”),那么您最好有如何改善情况的想法。
相反,我被释放了。
为数据科学职业2.0做准备
我知道我对数据的兴趣及其解决业务问题,通过自动化通常提高效率甚至提供竞争优势所必需的潜在能力并不是没有根据的(尽管我记得我的一位主管曾在多年前说过“ ”这只是一种时尚,从长远来看,它什么也没有,因为它大概是8年前了。在我早早离开组织之前,我已经开始加强对该主题的自学。正如我之前说的,Internet提供了大量的资源,尽管那时资源很大,但几年后甚至无法与今天的资源相比。
我完全沉迷于这个话题。请记住,尽管我获得了MS学位,但并未获得博士学位。尽管许多人可能会在没有博士学位的情况下撇掉一名机器学习从业人员,但我还是要有所不同。尽管每个人的学习方法都不同,但我发现这些资源在早期阶段非常有用,而不是追求昂贵且耗时的更高学位:
学术机构和私人组织都提供在线课程(有时免费)。我最喜欢的是斯坦福大学,约翰·霍普金斯大学以及Coursera,Udemy,edX等私人组织。当时,该领域的课程很少。现在,如果有我猜想的话,这里有数百个,而来自麻省理工学院,哥伦比亚大学和西北大学等著名大学的完善的在线学位课程仅举几例。         
机器学习竞赛提供了另一种主动/应用学习的方式,而无需花费您的时间。给参与者一个问题(通常由公共和私人机构提出)和数据,以建立解决问题的算法。通常,从这个意义上说,“解决”问题等同于建立一个机器学习模型,该模型用于使用与该事件/结果相关的历史数据以最高的准确性来预测某个将来的事件或结果。虽然Kaggle是这些比赛的主要网站,但其他比赛包括CrowdANALYTIX,DataKind和DrivenData。     
在职学习本质上是学习机器学习或与此相关的任何东西的最佳方法。众所周知,现实世界中的数据问题非常麻烦,即使在构建了可行的模型之后,您仍然必须经历将解决方案大规模投入生产的严峻考验(进入像AWS这样的云平台,这需要学习一套全新的IT技能) 。值得庆幸的是,再次有了基于Internet的知识。  
我经历的过程没有轻松或快速的过程,并不是每个人都能在一个对自己的进步负责的环境中where壮成长。我花了五年多的时间对机器学习的基础知识感到满意。最后,经过几个小项目(包括一个我很幸运地与美国能源署障碍),更在地平线上,我合并为预期X。
机器学习和期望值
令我惊讶的是,我没有被问到“预期X”的含义是什么。我和一些与之交谈的人说“哦,是的,很聪明”,我只能以为他们在统计方面知识渊博。我本人从来没有发展过合适的语言,为什么不现在呢?我怀疑这将是对本文其余内容的一个很好的介绍。
预期X实际上是指“期望值”,它是统计中用符号“ E [X]”正式表示的术语。期望值就是我们期望某个变量在进行多次重复或多次迭代(例如进行实验)后平均应采用的值。简单来说,您可以将其等同于说“当我掷硬币时得到尾巴的预期价值是什么?” 答案将是“ 0.5”或“ 50%”-硬币翻转(正面/反面)有两个可能的结果,每个结果的假定概率为0.5。
期望X不仅仅是一个商业名称,而是我的个人研究哲学,源于我的市场研究时代。打开新闻,您经常会收到关于某某大学的一项新研究的故事,该小说宣称诸如“咖啡中的化学物质与癌症相关”之类的东西,然后在几周后出现。一项新研究宣称“咖啡对健康有益!” 关键是,一项一次性的研究很难为真理和因果关系奠定基础。实际上,大多数值得称赞的科学家都同意,我们只能使针越来越接近接受给定的假设,而从不真正知道“真相”是什么。很深,不是吗?  
这也是我的经营理念-机器学习解决方案绝不是灵丹妙药。要提高算法的准确性,精度或您用来衡量其功效的任何指标,迭代都需要进行多次很多次的迭代。考虑到机器学习,深度学习或人工智能(这三种具有不同含义的术语,经常被大众媒体交替使用)的全部可用内容,都是所有未来的最终商业模式,因此很难传达这种哲学。听起来很熟悉,区块链?
最后一点:克服冒名顶替综合症
在机器学习行业中很容易感染“冒名顶替综合症”,我也不是没有免疫力。对于那些不知道的人来说,冒名顶替综合症是对自己能力和成就的怀疑,这与他们所在领域的其他人相比。在公司环境中通过“逐击试验”进行了授课以及我自己的自学之后,我经常问我是否足够了解该学科的技术含量很高的生态系统。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群