需要明确的是,数据科学不仅仅是预测或分类。它包括其他机器学习技术,例如聚类和频繁项集挖掘。它还包括数据可视化和数据讲故事。它还可以涵盖传统数据挖掘框架的各个方面,例如KDD Process,包括数据选择,预处理和转换。数据科学还可以包括其他算法和方法,以解决与数据相关的任务,而我在这里没有提到。
我以前对数据科学进行了整体定义,如下所示:
数据科学是一门涉及多方面的学科,涵盖了机器学习和其他分析过程,统计数据和数学的相关分支,越来越多地借鉴高性能科学计算,所有这些都是为了最终从数据中提取见解并使用这一新发现的信息来讲述故事。
当考虑“预测科学”与数据科学时,正是与之相对应的细长的数据科学部分。实际上,将数据科学分解为组成的“科学”(例如,集群科学)肯定会帮助表达我们所做的事情,而这显然是用一个性感的总称来代替的。
但是退后一步,毫无疑问,数据是原材料。从这个意义上讲,数据科学将重点放在预测过程中的“内容”上。尽管数据是预测难题中的主要成分,并且可能是最难获得或以其他方式遇到的问题,但“数据科学”似乎忽略了其他主要组成部分以及有趣的见解。
算法是变革性的过程。那么算法科学呢?它着眼于工具,“方法”,并牢固地扎根于计算机科学。同样,这不足以准确地描述整体的预测过程。放弃数据是为了支持将其转换为预测的过程。任何成功的描述都可能将重点放在最终结果上。
整体预测过程的结果就是预测。还是假设?我不是用一般的“假设与预测”之类的方式来表示,而是“预测或假设是否是特定分类器/模型的更有价值的输出?”
无论是预测还是假设,这两个预测之一将是整体预测科学难题中最有趣的部分。预测科学如果能给您更好的印象-听起来不错。但实际上,这不只是“科学”吗?这似乎是非常具体的。
那么统计呢?我们是应用统计学家吗?源自维基百科:
“应用统计”包括描述性统计和推论性统计的应用。
添加说明性统计信息,这似乎是朝着正确方向迈出的一步。但是,在这种情况下,重点是应用统计过程,但要付出的代价……实际上并不多。然而,我认为这实际上并未适当地强调推论和描述性统计,也许暗示了对描述性的过多依赖,因此似乎在描述预测科学方面也欠缺。
预测分析?也许是最接近的情况,但此术语在这一点上似乎更接近商业世界,而不是科学世界。我认为这个词根本不会出现在研究中,它通常似乎是大企业的唯一领域。这对它的本质是很好的,但它似乎并没有使科学处于最前沿(尽管显然,科学是其使用的基础)。
我不知道有解决方案。公平地说,我什至不知道这是我自己无法解决的问题。但是我认为有关一切的内容可以归结为以下几点,并且可以推广到数据科学的预测方面之外:数据科学一词实际上代表着对我们,数据科学家或其他所有人有价值的东西吗?
我不打算提出建议,即使我这样做,我也肯定会通过。没关系但是,作为一个对“数据科学”一词并不感到兴奋或不满意的人,我认为值得反思一下我们的工作以及我们如何对这些任务进行分类。当然,能够为一些涉及到某些相关任务的广泛行业命名是很方便的,但是我们是否会因为这个森林而失去树木?
当涉及到非常复杂的预测科学时,数据可能是新油,而算法可能是特殊的调味料,但是无论从图形上还是从字面意义上讲,它们的配对预测能力才是真正的金钱所在。