数据准备中的新功能
简介: 如果您仍在编写代码来清理和准备数据,那么您将失去在现代数据准备平台上提高效率和保持一致性的巨大机会。
有两件事是对的。
数据准备仍占据我们模型构建时间的80%左右–最不愉快的部分。
如果您仍在编写代码以从头开始执行此操作,那么您将忽视效率和一致性的巨大机会。
除了从头编写代码外,至少还有四类数据准备平台。
完全集成: 许多高级分析平台都内置了复杂的数据准备。例如,Alteryx最初是作为数据准备平台,并逐渐添加了分析工具,从而成为一项完整的服务产品。
独立运行: 仍然有各种各样的独立数据准备平台。这是一种营销选择,似乎是基于为经典
数据分析师和公民数据科学家以及注重自助服务的数据科学用户提供服务的愿望。它还可以吸引拥有多个分析平台但希望标准化数据准备的用户,并且可以将其作为IT驱动的选择,以将一些ETL工作卸载到自助服务中。Trifacta和Datameer是独立的示例。
构建块: SAS和Oracle等一些更大,更成熟的分析提供程序提供了各种模块,这些模块可以独立使用,但更经常地链接在一起成为一个完全集成的集合。
自动化机器学习(AML): 根据最近的统计,现在有20多家提供商声称完全自动化的数据到模型
机器学习。 Tazi.ai是功能齐全的AML的一个示例,该功能甚至可以自动执行功能工程和功能选择。生产和管理数百甚至数千种模型的保险等行业已开始接受AML。
数据准备平台对高级分析不重要
尽管数据准备对于数据科学家的建模活动至关重要,但是许多这些数据准备工具都在寻求覆盖更广泛的自助用户。
尽管我们的重点是高级预测分析,但在更广泛的分析师职位中仍然有很多价值和活动。因此,无论目的是建立复杂的预测模型,还是只是为了将静态历史数据馈入数据即平台以观察趋势或任何其他以数据为依据的计划,所有这些方法都对快速而灵活地访问当前数据至关重要。越来越少意味着要向IT部门索取ETL摘录。越来越多地意味着要使用这样的自助服务工具。
他们如何排名
由于一个特殊的机会,我现在开始写数据准备平台。碰巧同时有来自三个主要研究组织的评论。这些是Ovum Research 2018自助数据准备报告,Forrester Wave 2017年第一季度数据准备工具报告以及数据准备工具的Gartner Peer Insights评论。可以从Trifacta主页访问这三个页面。
尽管所包括的人员和排名方法存在一些差异,但这是三个主要图表。
Gartner图表上的注释。Gartner同行排名基于发送给用户的调查,而不是基于独立的Gartner评估。对于任何未获得至少10条评论的平台,我都随意切断了图表。正如您所有的数据智能读者都会认识到的那样,将具有300个排名的平台的数字排名与具有11或12个排名的平台的数字排名进行比较最多是个难题。
包含的内容–有何不同
在替代方案中,您期望找到的核心功能是相当平等的。这包括混合数据源,清除丢失或编码错误的数据以及进行基本转换的功能。
它还包括处理结构化,半结构化和非结构化数据的免代码功能。
在数据准备和建模之间的边界处出现一点灰色。有时会排除或手动执行执行转换(例如,对严重偏斜的分布进行归一化)或创建新功能(例如,日期之间的差异或功能之间的比率)的功能,并且有时还会向用户提供关于他们可能采取的下一步操作的ML建议,从而增强了功能。
真正的差异化因素更加微妙。
自助服务和其他差异化因素的风险
如果没有BI历来由EDW提供的单一事实来源,那么用户将只剩下一些自己的设备,很容易误入歧途。一个与众不同的地方是包括了同类最佳的数据目录和数据字典。
第二个问题是治理和权限。您如何控制对敏感信息(PID或公司内部敏感信息)的访问。另一个区别是此治理,管理和控制功能的鲁棒性。
Ovum确定了竞争对手中的三个“战场”特征。上面的第一个是数据治理。
第二个是用户在构建数据库中相互协作的能力。这差异很大。
第三,也许是最有趣的是平台使用ML向用户建议动作的方式。这些可能是丰富的资源,或者是有关ML确定的缺失值,变换或其他数据特征的更详尽的指导,可能会增强数据的分析能力。
但是,从纯粹的数据科学的角度来看,数据准备平台为您的数据科学家提供了许多好处,这些好处主要包括洞察速度(与代码相比),标准化和可重复性(每个人都完成了所有明显的步骤,以进行清理和转换),最后支持多种分析技术和平台。众所周知,有些人仍想为模型本身编写自己的代码,而有些人根据使用情况对平台有不同的偏好。这些平台,尤其是那些可以单独使用的平台,一旦完成了不太愉快的数据准备任务,就可以为建模提供完全的灵活性。
1