商业智能和数据科学之间的区别
我正在重新发布此博客(具有更新的图形),因为我仍然对商业智能和数据科学之间的区别仍然有很多疑问。希望该博客对您有所帮助。
最近,我有一个客户要我向他的管理团队解释商业智能(BI)分析师和数据科学家之间的区别。我经常听到这个问题,通常选择显示图1(BI分析师与数据科学家特征图,该图显示了每种方法的不同态度方法)...
图1:BI分析师与数据科学家的特征
...以及图2(商业智能与数据科学,显示了每种类型试图解决的不同类型的问题)以响应该问题。
图2:商业智能与数据科学
但是这些幻灯片缺少令人满意地回答问题所需的上下文–我永远无法确定观众是否真正理解BI分析师所做的工作与数据科学家所做的工作之间的固有差异。关键是要了解BI分析师和数据科学家的目标,工具,技术和方法之间的差异。这里是解释。商业智能(BI)分析师参与流程
图3概述了典型的BI Analyst与业务用户互动时使用的高级分析过程。
图3:商业智能参与流程
第1步:构建数据模型。该过程从构建基础数据模型开始。无论您是使用数据仓库,数据集市还是中心辐射型方法,还是使用星型模式,雪花模式或第三范式模式,BI Analyst都必须与业务用户一起进行正式的需求收集过程,才能识别业务用户想要回答的所有(或至少绝大多数)问题。在此需求收集过程中,BI分析师必须确定业务用户要解决的第一级和第二级问题,以便构建健壮且可扩展的数据仓库。例如:
?一级问题:我们上个月治疗了多少患者?
第二级问题:与上个月相比如何?
第二级问题:治疗的主要DRG类型是什么?
?一级问题:昨晚有多少患者通过急诊就诊?
第二级问题:与前一天晚上相比如何?
第二级问题:录取的最高原因是什么?
?一级问题:上周X医院使用了多少病床?
第二级问题:过去一年中床的使用趋势如何?
第二级问题:哪些部门的床位利用率增长最大?
然后,BI Analyst与数据仓库团队紧密合作,以定义和构建支持所提出问题的基础数据模型。
注意:数据仓库是一种“加载时架构”方法,因为必须先定义和构建数据模式,然后才能将数据加载到数据仓库中。没有基础数据模型,BI工具将无法使用。
步骤2:定义报告。将分析需求转换为数据模型后,流程的第2步是BI Analyst使用商业智能(BI)产品-SAP Business Objects,MicroStrategy,Cognos,Qlikview,Pentaho等-来创建基于SQL的查询所需的问题(请参见图4)。
图4:商业智能(BI)工具
BI Analyst将使用BI工具的图形用户界面(GUI)通过选择度量和维来创建SQL查询。选择页面,列和页面描述符;指定约束条件,小计和总计,创建特殊计算(均值,移动平均,排名,份额)并选择排序标准。BI GUI隐藏了创建SQL的大部分复杂性
步骤3:生成SQL命令。一旦BI分析师或业务用户定义了所需的报告或查询请求,BI工具便会创建SQL命令。在某些情况下,BI Analyst将修改BI工具生成的SQL命令,以包括BI工具可能不支持的唯一SQL命令。
步骤4:创建报告。在步骤4中,BI工具针对数据仓库发出SQL命令,并创建相应的报表或仪表板小部件。这是一个高度迭代的过程,业务分析师将调整SQL(使用GUI或手动编码SQL语句)以微调SQL请求。BI Analyst还可以指定图形渲染选项(条形图,折线图,饼图),直到获得所需的确切报告和/或图形为止(参见图5)。
图5:典型的BI工具图形选项
顺便说一句,这是加载模式的强大功能的一个很好的例子。这种传统的按加载方案架构方法从业务用户中消除了很多基础数据复杂性,这些业务用户随后可以使用GUI BI工具更轻松地交互和浏览数据(认为自助服务BI)。
总之,BI方法在很大程度上依赖于预先构建的数据仓库(加载模式),这使用户可以快速,轻松地提出进一步的问题-只要他们需要的数据已经在数据仓库中即可。如果数据不在数据仓库中,那么将数据添加到现有仓库(并创建所有支持的ETL流程)可能要花费几个月的时间。
数据科学家参与过程
图6列出了数据科学家参与过程。
图6:数据科学家参与过程
步骤1:定义假设进行测试。数据科学家流程的第一步是从数据科学家确定他们要测试的预测或假设开始。同样,这是与业务用户合作以了解业务差异化的关键来源(例如,组织如何实现价值),然后集思广益讨论可能产生更好绩效预测指标的数据和变量的结果 。在这里, Vision Workshop流程可以在驱动业务用户与数据科学家之间的协作以识别可帮助提高预测价值的数据源方面增加可观的 价值(参见图7)。
图7:视觉研讨会数据评估矩阵
第2步:收集数据。数据科学流程的第2步是数据科学家从众多来源(最好是组织内部和外部)收集相关和/或有趣的数据的地方。该 数据湖是这个过程中有很大的方法,因为数据科学家可以抓住任何他们想要的数据,测试,确定其价值给出的假设和预测,然后再决定是否将包括在预测模型中的数据或者把它扔掉。#FailFast #Fail安静
步骤3:建立资料模型。 步骤3是数据科学家定义和构建解决正在测试的假设所必需的架构的地方。数据科学家只有在知道他们正在测试的假设并知道他们将使用什么数据源来构建分析模型之前,才能定义架构。
注意:此“查询架构”过程与传统的数据仓库“负载架构”过程明显不同。数据科学家无需花费数月的时间就可以将所有不同的数据源一起集成到一个正式的数据模型中。相反,数据科学家将根据分析中使用的数据根据??需要定义方案。数据科学家可能会遍历模式的几个不同版本,直到找到足以回答所测试假设的模式(和分析模型)。
步骤4:探索数据。数据科学流程的第4步利用出色的数据可视化工具来发现数据中的相关性和异常值。诸如Tableau,Spotfire,Domo和DataRPM [1]之类的数据可视化工具是出色的数据科学家工具,可用于探索数据并确定他们可能想要测试的变量(参见图8)。
图8:示例数据可视化工具
步骤4:建立和完善分析模型。步骤4是真正的数据科学工作开始的地方–数据科学家开始使用SAS,SAS Miner,R,Mahout,MADlib和Alpine Miner之类的工具来构建分析模型。这是真正的科学,宝贝!此时,数据科学家将探索不同的分析技术和算法,以尝试创建最具预测性的模型。正如我的数据科学家朋友Wei Lin与我分享的那样,其中包括以下一些算法技术:
马尔可夫链,遗传算法,地理围栏,个性化建模,倾向分析,
神经网络,贝叶斯推理,主成分分析,奇异值分解,优化,线性规划,非线性规划等。
一切都是为了量化因果关系!我不建议尝试与这些家伙对战一场国际象棋。
步骤5:确定适合度。在数据科学过程的第5步中,数据科学家将尝试确定模型的拟合优度。统计模型的拟合优度描述了该模型对一组观测值的拟合程度。许多不同的分析技术将用于确定拟合优度,包括Kolmogorov–Smirnov检验,Pearson卡方检验,方差分析(ANOVA)和混淆(或误差)矩阵。
概要
我的意思不是说商业智能和负载模式很糟糕,数据科学和查询模式很不错。正是他们解决了不同类型的问题。它们是不同的方法,适用于不同的环境,并且在分析过程的不同阶段使用。在BI流程中,必须首先构建架构,并且必须构建该架构以支持各种业务功能中的各种问题。因此,数据模型必须是可扩展的和可伸缩的,这意味着它需要经过精心设计。考虑生产质量。在数据科学过程中,仅构建架构以支持要测试的假设,因此可以更快,更轻松地完成数据模型。考虑临时质量。
数据科学过程是高度协作的;流程中涉及的主题专家越多,生成的模型越好。甚至更重要的是,业务用户在整个过程中的参与可确保数据科学家专注于发现通过SAM测试的分析见解- 战略(对业务), 可采取行动(组织可以实际采取行动的见解)以及 材料(根据见解采取行动的价值大于根据见解采取行动的成本)。
1