全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
918 0
2022-05-26
“当你拥有大量数据时,你如何分析这些数据并达到可以从中获得宝石和钻石的程度?”迈克·杨,首席信息官与中心,知道在 PB 和 TB 的海洋中涉水寻找价值是什么感觉。Centrica 是一家能源公用事业和服务公司,通过 Direct Energy 为北美的企业和消费者市场提供天然气、石油和可再生能源,并通过 British Gas 在英国提供天然气、石油和可再生能源。Young 与 DATAVERSITY® 讨论了 Centrica 如何在符合通用数据保护条例 (GDPR) 的过程中将其海量数据湖转变为战略资产。

尺寸问题
Centrica 有两个基于 SAP 的后端系统,一个服务于业务的消费者端,另一个服务于业务端。这些系统在 SAP 支持的全球最大系统中排名第三和第五。使它们变大的不是它们的配置,而是驻留在这些系统中的数据。


Centrica 主要由自 2015 年以来收集的客户数据组成,拥有一个相当复杂的数据湖,“但它仍然是大量数据。那个湖中有 TB 和 PB 的数据。” 例如,他们使用数据为英国天然气客户运行一个相当复杂的奖励计划。除了提供天然气和电力外,Centrica 还提供许多不属于能源组合的服务,例如锅炉维修或一般管道。他们需要找到客户的痛点并提供相关服务的数据就在他们的数据湖,但他们无法有效地使用它。

总体评价
过去,Young 的团队建立了一些自己的算法来寻找这些宝石,但当GDPR到了之后,他们意识到他们需要一种更复杂的方法来处理客户数据。GDPR 中任何可以被视为私人信息的东西——姓名、地址、信用卡号码、电话号码——都需要额外的安全层。“我们发现这非常困难,因为所有这些数据都与许多其他数据一起位于一个大湖中。” 他们无法控制和跟踪私人信息的访问、使用或删除。Young 知道他的时钟在截止日期前符合 GDPR。

主要考虑因素
据 Young 的同事称,除了 GDPR 考虑因素和对更全面的方法来满足客户需求的渴望之外,Centrica 还希望提高整个公司业务部门之间共享的信息水平达尔吉特·雷哈尔,Centrica 的数字与数据高级副总裁兼首席数据官。他们意识到,通过正确的解决方案,他们可以结合数据湖中多个单元的信息,并将其转变为战略资产。

“你可以拥有一个数据湖,但不一定其中的所有数据都有价值。” Young 说,无论您有多少数据科学家致力于这项任务,进入和理解这些通常由非结构化和结构化数据组成的数据集都是一项艰巨的任务。“我们知道,随着新立法的出现,我们需要更复杂的东西,要求所有公司都知道他们所有敏感数据的位置。”

杨说,他们“四处搜寻,寻找可以帮助我们实现这一目标的解决方案”。在这个过程中,他们意识到地平线上没有任何东西可以与智能数据发现公司平台太浩湖.

早期测试
他们从四个数据源的小型试验开始,发展为为期四个月的练习,使 Io-Tahoe 能够拖网近 900 个应用程序,其中 22 个应用程序相当重要。“这些是大盒子类型的服务器、许多表格、许多列,以便从立法的角度确定我们在哪里拥有敏感数据以及敏感数据的样子。” Rehal 表示,他们能够在他们预期的一小部分时间内处理 300 亿条记录和 170 万列,这是手动尝试不可能完成的任务。

在此过程中还发现了跨多个来源的重复数据,使 Centrica 能够快速定位和清理它。相比之下,Rehal 说他们有一个使用第三方的副项目,涉及查找驻留在非生产系统中的个人信息:“他们花了八个月的时间对四个数据源进行分类。使用 Io-Tahoe,我们在一个月内做了 22 个数据源。” Young 认为一个强大的功能是该解决方案在湖和数据库领域也适用。“我们是大而重的数据用户,如果它适用于我们,它将适用于任何试图为数据集寻找发现解决方案的实体。”

扩展它
在他们发现使用 Io-Tahoe 在试点中满足和管理 GDPR 合规性方面取得成功的基础上,Young 说他们扩大到使用它来保持数据集的健康。“我们现在只保留与某些产品和服务以及我们的客户相关的数据,并且我们正在清理我们的数据,”这也允许他们使用他们的数据集来构建未来的产品和代表公司提供服务。“这就是为什么在去年下半年,我们选择在企业层面扩大 Io-Tahoe 产品的使用范围。” 有了企业范围的许可证,他们现在可以允许企业中的所有用户在数据湖中使用该工具。

评估
他说,Io-Tahoe 的表现足够好,Centrica 受到启发,将其应用范围扩大到远远超出最初的试点范围,并扩展到未来。“我们认识到我们拥有一个平台,我们认为该平台将在很长一段时间内都适合这一目标。” Young 说,以前,他们在 B2B 和 B2D 方面都有团队,他们习惯于在孤岛中处理数据,要求他的团队从数据湖中检索某些数据集并从中报告。

随着他们现在拥有的敏捷性和处理能力的提高,“我们鼓励我们的业务团队将数据视为他们的资产,而不仅仅是作为集团资产,并开始在整个网格中更广泛地使用该平台。” 使用 Io-Tahoe 提供的发现,用户可以自己访问数据湖,根据他们需要的任何标准绘制报告。

他说,自助服务发现和报告提高了 Centrica 产品组合中数据组的信心水平。“它已成为他们日常使用的首选平台。”

结论
Io-Tahoe 及其智能数据发现能力是 Centrica 未来的关键部分。“在我们的世界中,并且在全球范围内越来越多,我们都在转向实时数据集以及与您的客户实时交互的能力。

      相关帖子DA内容精选
  • 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群