全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
346 0
2022-06-15
如果我作为 BI 顾问学到了一件事,那就是数据管理问题,例如超速罚单和陪审团责任,非常普遍,但不知何故仍然不太可能发生在您身上。

我不能告诉你我见过多少次BI 实施拖了几个月和几个月,因为在项目开始时,围绕数据提取、建模、混叠和管理的问题没有得到解决,甚至没有得到考虑。预先投入时间从来都不是一件有趣的事,但它比不得不回溯要少得多。

想了解情况吗?
在您的收件箱中获取我们的每周通讯,其中包含最新的数据管理文章、网络研讨会、活动、在线课程等。

订阅
也就是说,我也看到公司从一开始就认真考虑他们的数据管理战略,并在他们的最后期限内将他们的 BI 实施提供给客户。数据管理听起来像是纸质推动者可选的繁忙工作,但我向您保证,这对您的成功至关重要,尤其是在您提供 BI 的情况下。

因此,这是一个免费咨询,详细解释了我在该领域最常遇到的数据管理陷阱。这个列表可能不会让您感到惊讶,但我希望它会促使您认真、客观地审视自己的实现并评估它是否存在漏洞。只要有一点远见和一些肘部润滑脂,您就可以实现您所依赖的平稳、畅通无阻的 BI 部署。

糟糕(或不存在)的数据管理
最常见的数据管理我看到的错误与缺乏对数据库本身的内部所有权有关。很少有人能以这样一种方式找到一个真正的数据库所有者,即一个人可以讲述从数据收集到存储再到提取的整个过程。

公司发生这种情况的方式有很多种。当人们来找我们寻求满足客户需求的报告解决方案时(例如商业智能解决方案设计为嵌入到 SaaS 应用程序中),它们不会在同一步骤中设置数据库。他们已经收集数据很长时间了——在大多数情况下,甚至早在考虑报告之前。有时我们会发现最初建立数据库的人甚至不再在组织工作,也没有留下太多的文档或部落知识来帮助继任者。

其他时候,数据的责任(和知识)分布在整个公司。一组可能对数据的语义有深刻的理解,而另一组(例如 IT)可能对其维护和流量容量有一定的了解。负责数据分析的第三组可能最熟悉其对利益相关者的效用。

不幸的是,这些小组都没有掌握数据库的结构或完全了解数据本身。你可以看到这如何开始造成一些混乱。

如果没有人拥有这些数据,那么管理起来就会变得异常困难。通常,多个人会尝试了解数据是如何设置的,对这项工作的绝对范围犹豫不决,然后修改他们的项目目标以避免不得不更深入地挖掘。这导致多人只了解数据生命周期的一部分和片段。我有客户问我他们的表是如何连接在一起的。

将部落知识整合到单个文档中——例如数据字典、业务词汇表和/或实体关系图 (ERD)——是促进良好管理协议的第一步。理想情况下,一个人或一个团队将致力于这项任务,但创建可靠的记录至少可以帮助分布式管家网络保持同步。

糟糕的仓储
大多数公司的数据库首先针对数据存储而不是提取进行了优化。这是有道理的,因为我们需要在某个地方放置数据,然后才能对其进行任何操作。只要我们在某个地方有它,我们就可以决定以后如何分析它,对吧?

当 SaaS 提供商向我们寻求嵌入式 BI 解决方案时,他们通常面临着快速将解决方案提供给用户的压力。他们的数据还没有准备好,但他们针对原始数据启动以赶上最后期限,这总是导致查询效率低下和报告执行时间差。只需稍加结构准备即可轻松避免此类挫折。

原始数据库通常是高度规范化的,并且必须进行一些非规范化才能更有效地查询。规范化是增加数据库中表的数量同时减少它们的冗余的过程,它提高了对数据库的写入性能,并且是一种常见的初始设置。

然而,非规范化通过减少数据库中表的数量并增加它们的冗余来加速数据检索。这是我经常看到的步骤,要么在最后一分钟以视图或存储过程的形式被跳过,要么只为一个特定的报告用例提供服务。

现在,这并不是说一张表格就可以解决所有报告效率低下的问题。相反,报告单个庞大的数据表会带来一系列问题。这两个极端之间的中间地带几乎总是必要的,以确保可接受的报告性能。在启动 BI 解决方案之前,对原始数据进行非规范化并消除任何不必要的批量将使您不必在事后重新设计和重新设计所有报告。

可访问性差
当你改进你的数据库性能,为什么不考虑可访问性?数据库通常由管理员设计,他们充其量只是对如何使用数据有模糊的了解。

设身处地为用户着想,尝试想象他们将如何解释模式名称,根据报告预测他们将尝试做出的决策类型是很困难的。但是,无论是通过角色还是实际的用户研究,进入这些领域对于使数据(以及因此您的 BI 实施)对消费者有用是至关重要的。

第一个问题很简单但经常被忽视:列名。设置报告系统的管理员可能通过查看模式名称知道哪些字段是哪些字段,并且可能认为别名“很高兴拥有”而不是必要的。那些 确实选择为他们的列命名的人有时不会考虑什么对用户最有意义。如果我的销售团队正在寻找包含所有潜在客户的字段,则将此字段命名为“联系人姓名”在技术上可能是正确的,但会使用户难以找到。

第二个问题是数据不堪重负。了解您的用户想要什么样的报告对于不被表格和列淹没至关重要。

我无法告诉你有多少次我看到管理员向用户展示 12 个表,每个表包含 25 到 100 列,只是因为他们不确定用户需要哪些列。然后,由于列太多,管理员没有时间为字段设置别名,更不用说描述或其他元数据。有问题的用户可能只需要总共 3 个表中的 15 列(可以方便地组合成一个视图),但相反,他们会被字段选项轰炸并惊恐地退出工具。不一定要那样。

最后,提供数据定义对最终用户非常有帮助。对每个字段包含的内容进行简单解释,但您也可以提供用例示例或建议如何组合字段。使用熟悉的术语识别字段可以使最终用户的报告成为一种轻松且有价值的体验。

维度信息处理不当
大多数公司从我们所说的事实信息开始——记录的交易和伴随的数据。想象一张销售数据表;记录将显示该客户在这一天为这些产品下的订单。此表可能在某些日期没有记录,因为在那些日子没有进行任何销售。在事实表中,我们仅在该事件发生时创建一条新记录。

另一方面,维度信息是一组完整的某种类型的数据,旨在提供额外的上下文。我们建议添加的最常见维度信息是日历表,其中包含所有日期的列表,无论事件是否在该日期发生。维度表允许您从整体上查看您的数据点集合,而不仅仅是查看与它们相关的事件的数据点。事实和维度信息对于从 BI 中获取价值至关重要。

现在的问题变成了如何引入这个维度信息,有两个基本选项:

1. 培训 BI 用户何时将这些表包含在他们的报表定义中,或者
2. 将维度表直接构建到公开的数据模型中。

公司通常都不做这件事,导致用户沮丧和不信任。公司必须预见到这个问题并按照上述决议之一采取行动,以免疏远他们的客户群,这一点很重要。

绝对有可能在这些数据管理挑战使您脱轨之前解决它们商业智能实施,但这需要远见、研究、时间和进行前期投资的意愿。从长远来看,良好的数据管理实践将获得回报——节省时间并提升公司的声誉。深思熟虑的 BI 实施具有令人难以置信的“粘性”,这意味着用户希望继续使用它们而不是迁移到不同的系统。嵌入式 BI 实施会将这种粘性传递给主机应用程序,但没有 BI 解决方案可以弥补糟糕的数据管理。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群