为什么
数据分析需要大量数据工程?
尽管许多公司已着手进行数据分析计划,但只有少数成功。研究表明,超过70%的数据分析程序无法充分发挥其潜力,而超过80%的数字化转型计划却失败了。尽管有许多因素会影响数据分析的成功部署,但一个根本原因是缺乏高质量的数据。但是,许多企业意识到这一点,并在数据清理和修复上投入了大量时间和精力。技术上称为数据工程。据估计,数据分析工作中约有60%到70%用于数据工程。鉴于数据质量是分析的基本要求,所以为什么数据 分析会在数据工程上投入大量精力有五个关键原因。
1.不同的系统和技术机制来集成数据。
业务系统的设计和实现是有目的的;主要用于记录业务交易。在诸如ERP之类的业务系统中,数据捕获的机制是批量/离散数据,而在SCADA / IoT现场系统中,其捕获机制是连续/时间序列数据。这意味着这些业务系统会存储各种数据类型,这些数据类型是由数据中的速度,数量和各种维度引起的。因此,捕获数据的技术(包括数据库本身)是多种多样且复杂的。而且,当您尝试集成来自不同供应商的这些不同系统中的数据时,元数据模型会有所不同,从而导致数据集成方面的挑战。
2.数据采集的不同时间范围
数据捕获期间数据摄取的时间范围会有所不同。例如,在ERP /事务系统中,数据摄取通常是批处理/离散/手动的,而在SCADA / IoT /现场系统中,数据摄取通常是自动和实时的。例如,当完成向客户的产品交付后,通常会通过手持设备实时捕获装运详细信息。但是,由于发票是从ERP系统发给客户的,因此无法立即处理发票。这会延迟交货发票合规报告。
3.不同的用户价值主张
在业务中,相同的数据由不同的利益相关者(公司内部)以不同的方式创建和使用,因为它们的价值主张有所不同。例如,财务的卖方付款条件是成本对象,而采购的相同数据元素是风险元素(较长的付款条件通常会导致交货时间更长)。
4. 不同的业务流程
由于地理,法律,法规,市场条件等因素导致的业务流程差异,同一数据元素可能会有所不同。例如,加拿大的出生日期数据元素受数据隐私法规的约束,而数据日期则受数据隐私法规的约束。 -在大多数发展中国家,出生数据元素通常不属于数据隐私法规的一部分。因此,针对发展中市场获取基于年龄的客户购买习惯报告要比在加拿大获取相同报告要容易得多。
5.组织结构驱动的不同集合
根据组织结构驱动的粒度或聚合的差异,可以不同地查看一个数据元素。例如,采购副总裁可能需要基于项目类别(采购项目的汇总)的支出报告,而采购经理则需要根据采购的单个项目的支出报告。该汇总可能会根据商品类型,供应商类型,交货地点等而有所不同。
好的分析取决于高质量的数据。因此,如果您通过查看技术,工具和聘用数据科学家来开始分析之旅,请暂停一分钟。挑战您的假设并提出一个基本问题–我的业务运营的多样性是否会影响高质量的分析数据? 如果答案是肯定的,请准备进行长期而复杂的数据工程工作。
题库