关于数据科学的五个误解-知道您不知道的事
数据科学已经进入了社会的几乎所有方面-从零售和营销,旅行和款待,金融和保险,体育和娱乐,国防,国土安全,网络等等。显然,数据科学已经成功出售了其“从数据中获得可行的见解”的主张,说实话,它通常会兑现这一主张,从而增加否则将无法开发的价值。结果,数据科学通常被视为万能药,瑞士军刀,银子弹,必备品,[在这里插入您自己的陈词滥调]。这对数据科学家及其合作的组织都有影响。一方面,数据科学家现在开始面临一系列新的挑战性问题,即使是最先进的
机器学习算法也无法解决的问题:管理期望。另一方面,许多企业和组织都在努力应对不断变化的学习曲线,最新的亮点和保持步调的压力。随着数据科学潮流的不断涌现,许多人并不完全或什至很少地了解数据科学是什么,它可以做什么以及何时相关。在接下来的内容中,我将介绍我对数据科学最常见的五种误解,即随着数据科学浪潮的不断发展,这种误解会不断加剧和演变。在“从数据中获取价值”方面,认识到这些误解并避免与每种误解相关的陷阱将大大有助于增强您(和您的组织)的能力。最新的闪亮物体,以及与时俱进的压力。随着数据科学潮流的不断涌现,许多人并不完全或什至很少地了解数据科学是什么,它可以做什么以及何时相关。在下面的内容中,我将介绍我对数据科学最常见的五种误解,即随着数据科学浪潮的不断发展,这种误解会不断加剧和演变。在“从数据中获取价值”方面,认识到这些误解并避免与每种误解相关的陷阱将大大有助于增强您(和您的组织)的能力。最新的闪亮物体,以及与时俱进的压力。随着数据科学潮流的不断涌现,许多人并不完全或什至很少地了解数据科学是什么,它可以做什么以及何时相关。在下面的内容中,我将介绍我对数据科学最常见的五种误解,即随着数据科学浪潮的不断发展,这种误解会不断加剧和演变。在“从数据中获取价值”方面,认识到这些误解并避免与每种误解相关的陷阱将大大有助于增强您(和您的组织)的能力。在接下来的内容中,我将介绍我对数据科学最常见的五种误解,即随着数据科学浪潮的不断发展,这种误解会不断加剧和演变。在“从数据中获取价值”方面,认识到这些误解并避免与每种误解相关的陷阱将大大有助于增强您(和您的组织)的能力。在接下来的内容中,我将介绍我对数据科学最常见的五种误解,即随着数据科学浪潮的不断发展,这种误解会不断加剧和演变。在“从数据中获取价值”方面,认识到这些误解并避免与每种误解相关的陷阱将大大有助于增强您(和您的组织)的能力。
1.数据科学等于大数据
正确说语言
如今,术语“数据科学”和“大数据”的可互换使用并不罕见[1]。可以说,所谓的大数据革命为现在被标记为数据科学的领域提供了动力。不管纠缠的起源如何,大数据和数据科学都大相径庭。大数据是指收集,管理和处理大量数据(至少TB)。但是大数据的概念不仅限于1和0,这就是为什么它更恰当地用“三个V”来表征的原因-容量,可变性,速度。除了数量庞大之外,大数据通常还包含不同类型的数据(结构化,非结构化,数字,文本,图像,视频等)[2]。并且,当数据生成和需要处理的速度过大时,数据可能会变得“庞大”。以Twitter为例,一条推文只有几百个字节(140个字符),但是考虑到每分钟平均发送350
相反,数据科学处理从数据的挖掘,转换,建模和存储,到探索和分析数据,围绕数据构建模型和算法,以及可视化结果并与结果交互的所有事务。大数据应被视为数据科学的一个方面–它描述了所涉及的数据以三个V或多个V为特征的情况。
机器振动的时间序列数据–非传统数据的示例(在数据科学方面)
当组织谈论需要大数据解决方案或大数据技术时,他们真正需要的是数据科学解决方案。大多数企业没有PB级的数据。恰恰相反,许多企业都可以使用Excel来处理其数据,而Excel通常是一种令人满意的操作模式。但是,随着数据收集和数据可用性的爆炸式增长,我们今天看到的挑战不仅是数据量,还在于数据的多样性。数据(其中大部分是非结构化的)变得越来越异构,并且通常分散在各种系统(一些旧的,一些新的)上。还有一种现实情况是,数据可能是不完整,不一致甚至完全错误的。企业与其处理大数据,不如处理“非传统”,“混乱”或“
从根本上讲,围绕大数据和数据科学的误解大多是词汇上的,通常只需要回顾一下人们真正需要什么。底线是,通过了解一些关键的数据科学基础知识,企业将变得更加了解情况,并且可以更好地理解其挑战以及如何应对。
2.机器学习
做您的机器学习魔术!”
我们中的许多人都熟悉机器学习,甚至可能没有意识到。简单线性回归是机器学习的一种形式。线性回归是监督学习算法的一个示例,其中对算法的观察包括因变量和自变量。通过预先为算法提供“正确答案”,可以构建一个模型,然后可以预测新观察结果的答案。在这个简单的示例以及最复杂和复杂的机器学习算法中,关键在于机器需要学习输入和输出之间的关系(无论如何复杂),以开发有用的模型。它是如何做到的?很简单,它被教导。[4]
为了说明这种谬误,请考虑以下示例和下面的两个“黑板”图片。假设我们希望一个平均7岁的孩子学习算术。方案A中描述的一种方法是,将所有数字和相关的运算符随机写在黑板上,并请年轻人研究黑板上的内容。方案B中描述的另一种方法是编写一系列等式,说明加法,减法,乘法和除法规则。再次,将要求年轻人研究黑板上的信息。值得庆幸的是,这两种方式都没有向孩子们教授算术。但是,应该清楚的是,如果出现方案A,则学生将没有机会学习加,减,乘和除。另一方面,在方案B中,他/她可能会有机会。至少,如果学生记住了所示的平等,他/她将知道这些问题的答案;他们是否可以将这些知识扩展到其他看不见的问题,将很难说。
方案A
情况B
大概您已经意识到,方案A旨在描绘机器(即计算机)看到数据并学习的神话,而方案B更接近现实。将数据扔到计算机上并期望它能成为洞察力的神圣金块,这是无望的努力–而且没有其他数量的数据会有所帮助。但是,应该指出的是,有一类机器学习称为无监督学习(见下文),尽管目标会有所不同,但实际上与方案A并无不同。
无监督学习
在无监督学习中,算法会摄取数据并寻找以识别数据中的潜在关系。无监督机器学习的常见示例是集群。在群集中,目标是对数据对象集进行分组,以使同一组或群集中的对象彼此之间的相似性高于其他群集中的对象。市场细分是实践中集群的一个很好的例子:给定我的客户的大量数据,我是否可以找到具有明显或潜在相似性的客户群来识别例如高价值客户,高潜力客户,或需要其他激励措施的客户。尽管无人监督的学习方案无需培训即可运行,但是确定将哪些数据对象馈送到算法中可能并非易事。这些对象应该由数据元素组成,这些数据元素有助于计算机在收集相似对象的同时分离不同的对象。在许多情况下,这需要仔细考虑,因此最终仍然需要分析师来指导计算机的“非监督”过程。
回到我们的示例,其目的是说明如果计算机要开发有用的模型,则需要正确的输入类型以及适当的结果集。换句话说,在通常称为特征的一组输入与结果或目标之间需要存在某种关系。一些关系很简单,并且可以通过相对简单的算法(例如,线性或逻辑回归)来发现。其他人则可能被深深地隐藏和复杂,需要更加精明的分析以及精明的数据科学家。但是,如果不存在关系,即使是最复杂的模型(还有很多)也会失败。在某些情况下,组织会大量使用数据,但是该数据的性质并不立即适合于构建有用的,机器学习的模型。在这种情况下 原始数据可能需要转换或聚合(例如,文本正文中的单个单词→单词计数)。或者,可能需要开发更适合特定问题的新功能(例如,文本正文中的单个单词→正面和负面情感词的计数)。或者,考虑到结果,可能需要对目标变量进行“分类”(例如,一个家庭每周在杂货上花费的美元金额→[$ 0 – $ 50,$ 50 – $ 100,$ 100 – $ 150,$ 150 – $ 250,...] )。这就是数据科学家的用武之地。有人需要了解数据,目标以及如何最好地达到目标。正文中的单个单词→正面和负面情感单词的计数)。或者,考虑到结果,可能需要对目标变量进行“分类”(例如,一个家庭每周在杂货上花费的美元金额→[$ 0 – $ 50,$ 50 – $ 100,$ 100 – $ 150,$ 150 – $ 250,...] )。这就是数据科学家的用武之地。有人需要了解数据,目标以及如何最好地达到目标。正文中的单个单词→正面和负面情感单词的计数)。或者,考虑到结果,可能需要对目标变量进行“分类”(例如,一个家庭每周在杂货上花费的美元金额→[$ 0 – $ 50,$ 50 – $ 100,$ 100 – $ 150,$ 150 – $ 250,...] )。这就是数据科学家的用武之地。有人需要了解数据,目标以及如何最好地达到目标。
对于组织而言,这种误解归结为具有现实和扎根的期望。了解机器学习的基础知识,以便您可以体会其优势,劣势和局限性,这对了解可以从数据中提取出哪些黄金块有很大帮助。
题库