全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
862 0
2022-06-09
我知道您仍在使用 Excel 表格来转换和/或分析您的数据!我知道,因为我们大多数人在某种程度上仍然使用它。使用 Excel 没有任何问题。Excel 电子表格是收集和转换少量数据的绝佳工具。但是,当游戏变得更难并且需要更多数据时,Excel 开始显示其局限性。

你不相信我?然后让我们从使用 Excel 电子表格转换数据时最常见的问题列表开始。

1.无差错控制

与同胞多次交谈后产生的一个主要问题数据科学家: Excel 电子表格没有错误控制,因此容易出错。

根据 Meta Brown 和 Karen Hardie 的说法:

“不经意间更改单元格或出错很容易——我见过人们在使用该过程很长时间后突然意识到一个单元格的宏错误,然后不得不回去弄清楚什么时候发生的。”

没有调试工具和测试框架来检查所有单元是否按预期工作,例如在更改之后。

John Peck 还评论说:

“Excel 非常适合简单的临时计算,但它缺乏结构以及难以自动化和记录内容,这使得它的使用容易出错。Excel 中内置的分析往往会增长和蔓延,使其难以验证和用于重复性任务。”

关于使用 Excel 电子表格执行重复性任务的困难的最后一个提示将我们带到问题 2。

2. 可重用性小

这个来自我自己在使用 Excel 电子表格进行专业数据管理时的个人错误。它与数据输入有关。通常,数据存储在 Excel 电子表格的一个或多个源列中,而其他列包含用于处理的宏和公式。嗯,通常,当重新使用电子表格进行当前月份的分析时,新数据会被手动复制并粘贴到专用的源列中。但是,由于当月的数据行通常多于上个月的数据行,数据的纯复制/粘贴将覆盖工作表中尚未定义宏的区域,从而产生错误的未经验证的总和和宏结果。

缺乏一种经过验证的、可靠的、重复的方式来从多个来源收集数据,使得可重用性仅限于非常简单的过程。

如果您正在考虑使用 Excel 作为数据源:Roger Fried 警告不要这样做!

3. 有问题的可扩展性

在专业的数据整理项目中,我们通常会处理非常大量的数据。因此,在推进项目时,可扩展性通常是一个问题。当涉及大量数据时,Excel 电子表格显示出它们的缺点。

David Langer 将“分析迭代的速度”列为使用 Excel 电子表格进行专业数据转换的主要问题之一:

“我的经验是,当前的 Excel 行限制(我在这里忽略了 PowerPivot)在绝大多数情况下都不是问题。大多数时候让我离开 Excel 的是迭代速度。例如,在线性回归建模中。”

对于乔瓦尼·马拉诺:

“在大型数据集上运行操作时性能下降和崩溃”是严重专业使用 Excel 电子表格的一大限制,而 Anna Chaney 证实“Excel 没有足够的内存来加载更大的数据集”。

David Montfort 指出了可处理行数的限制:

“Excel 有一个行限制,这对于非常大的数据集来说可能是个问题。此外,其他程序提供了更好的统计和数据可视化工具。”

因此,在实施专业数据整理和数据管理项目时,内存不足、行数限制、执行速度普遍缓慢和性能下降都代表了可伸缩性的严重问题。

4、数据操作覆盖率低

同样,Excel 电子表格非常适合小型数据集和减少的数据操作池。但是,当项目变得更大并且需要更复杂的数据操作时,有些在 Excel 中不可用。

Alessio Nicolai 和他的同事 Giovanni Marano 专注于“临时”分析(不需要可扩展的流程)。他们发现 Excel 电子表格可用的数据操作存在以下限制:

对过滤数据集的操作是有限的(过滤掉的数据只是“隐藏”的)
数据准备中没有中间步骤(例如过滤时)
公式限制(例如,不使用计算量大的数组公式就没有 MAXIFS/MINIFS)
数据透视表中的不同计数不可用
Joiner (Vlookup) 的等价物很笨重,不允许完全外连接
没有变通办法,多键连接器/完整的外部连接器是不可能的
分析工具(如回归、相关性)太基础了
电子表格中的行数受到限制
Amit Kulkarni 增加了为 say vlookup 函数引用过滤集的难度,Sayed Bagher Nashemi Natanzi (Milad) 希望有更多的排序和过滤选项。

5. 缺乏自动化

与缺乏可重用性密切相关的是缺乏自动化,正如下面的 Tyler Garrett 所指出的。

使用 Excel 电子表格时,复制和粘贴操作很常见,用于引入新数据、新单元格和新功能。这些都是无法自动化的操作,因为它们需要工具 GUI 的启动和一定程度的专业知识。每次,为了计算新值,都需要重新打开 Excel,进行这样的手动操作,然后重新计算:

“它非常适合原型设计、文档编制、入门级输入以启动 ETL、分析或数据科学流程,但当计算机离线时,真正的价值开始消失。“可用性”取决于计算机是否处于开启状态,“有效性”仅在用户是专家时才相关(但即使我们也会犯错误),并且缺乏防止其与酸兼容的规则。”

6.不开放

到目前为止,我们经常提到复制和粘贴操作。当然,这不是将数据导入 Excel 的唯一方法。您可以连接到数据库和其他一些外部工具。但是,在数据整理项目的范围内通常需要大量的数据源、数据类型和数据格式。工具的开放性允许您连接、导入和处理许多不同的数据源和类型,并集成来自其他流行工具的脚本和工作流。

透明度是工具开放性的另一个标志。在眨眼之间快速理解公式和操作的可能性是将您的工作传递给其他人或解释您同事的工作的重要功能。

Alberto Marocchino 指出这是在数据分析中使用 Excel 电子表格的另一个错误。他特别指出:

您不知道单元格是否包含公式或值(数据和分析合并在一起)
公式隐藏在单元格中
仪表板导出没有直接管道
它将数据更正推回数据库
“Excel 可以是一个很棒的工具,这取决于使用情况。它是通用的,并且由于大多数计算机用户都坚持使用 Windows,因此它是一种与 CSV 进行视觉交互的本机方式。但在核心数据分析方面,‘通用工具’不一定是质量的同义词。”

记录和交流 Excel 电子表格中发生的事情的困难将我们直接带到了下一个问题。

7. 协作困难

现在没有数据科学家或数据工程师不再单独工作。我们都是更大或更小实验室的一部分,我们都需要围绕我们构建的应用程序进行交流。团队调试、特性讨论、最佳实践、文档,都是日常工作中必不可少的任务。Excel 真的不适合大型团队的协作。

它驻留在您的本地计算机上,最好托管 Windows 操作系统。已经将电子表格导出到 Mac 可能需要一些额外的工作。

David Springer 指出“在处理数据时 Excel 的主要问题是默认的、不可移植的专有数据格式。”

文档是协作的重要组成部分。Michael Reithel 观察到:

“对电子表格的手动修改通常没有记录,因此会随着时间的推移而丢失,从而难以重现结果。”

这些只是使围绕 Excel 的协作难以实施的几个问题。

8. 耗时

正如 Hrvoje Gabelica 和 Tyler Garrett 所报告的那样,缺乏可扩展性、手动操作、数据量的限制使得围绕 Excel 电子表格的整个过程非常耗时。

两者都鼓励研究允许自动化、调度、开放和更好的可扩展性的其他解决方案。

9. 不友好

总而言之,Excel 电子表格对用户不友好。在开始数据处理领域的第一步时,它似乎很容易使用。然而,当需要更复杂的操作时,当协作派上用场时,结果发现它毕竟不是那么用户友好。

Giovanni Marano 列举了两个主要原因:

Excel 用于重复过程的宏不是用户友好的,并且很难在 VBA 中编码/调试
当在电子表格中设置多个公式/操作时,您无法轻松了解彼此之间的依赖关系,并且 - 除非您使用复杂的 VBA 编码 - 您需要一次运行整个执行
Evert Homan 说,在 Excel 中旋转数据很麻烦。我要补充的是,缺乏概述和难以引入文档使得 Excel 中的数据处理对用户非常不利,即使对于简单的任务也是如此。

我们可以用 Davide Imperati 的声明来总结:“它是生成损坏数据的完美设备”,因为我们并不总是了解处理功能。

10. 产品化很难

最后,在实施之后,我们需要将我们的应用程序投入生产。如果没有调度,从许多不同的数据源自动导入新数据,在重新执行之前自动重置宏,进入生产环境可能是一项艰巨的任务。

这使得 Excel 成为小型数据集和原型设计的优秀工具,但不适合专业数据管理项目。

尝试新的

此处列出的这些只是数据工程师在使用 Excel 电子表格存储、清理和转换数据时必须处理的最常见的十个问题。如果您仍然沉迷于 Excel 并努力以正确的格式获取数据,请尝试研究一些用于数据分析的替代解决方案。不是全部数据科学工具需要编程或脚本技能。其中一些基于可视化编程,其中可视化图标的拖放以及它们与管道的连接取代了脚本。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群