全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2486 0
2020-07-27
数据质量的多个维度
数据可以在任何地方。公司将数据存储在云中,数据仓库中,数据湖中,旧大型机上,应用程序中,驱动器上,甚至是纸质电子表格。每天我们都会创建2.5亿个字节的数据,并且没有任何迹象表明这种速度会很快下降。由于有如此多的数据驱动决策可用,您会认为每个公司都将依靠可靠的分析来在市场上竞争。然而,实际上,三分之一的企业领导者不信任他们用于决策的数据质量,据美国数据,不良数据每年给美国经济造成3.1万亿美元的损失从大数据的4 V提取业务价值。
基于规则的内部数据与活动外部数据
的 DAMA国际 数据管理知识机构(Data Management Knowledge of Knowledge)将“高质量数据”定义为“可靠且可信赖”的数据,那么公司如何改善和维护其数据质量?并非所有数据都需要花费相同的精力来维护。
销售与策略副总裁Bud Walker 梅丽莎,根据保持最新状态所需的工作水平将其分为两大类。内部“基于规则”的数据更改频率较低,并且需要更多内部主题知识。活跃的外部数据在不断变化。
基于规则的内部数据示例:
员工绩效数据
供应商付款条件
产品信息
活动外部数据的示例:
客户资料
电子邮件地址
名字
职称
公司名称
数据质量的维度
在他的白皮书中 建立与购买挑战, Walker将数据质量分为六个维度:
完整性:是否填写了所有相关字段?
有效性:是否所有值都符合?街道地址字段的顺序正确且拼写正确吗?
准确性:数据是否反映了真实的人或物体?米老鼠可能不是真正的销售前景。
一致性:数据是否符合可理解的模式?例如,DOB在美国的格式为MM / DD / YYYY,但在国际市场上则不同。
唯一性:是否有重复的实例?
及时性:是最新的吗?由于电子邮件,电话号码和家庭变动,一年之内25%的营销数据变得过时。
数据如何出错?
根据DAMA DMBoK2的说法,不良数据随处可见:
“由于没有组织拥有完美的业务流程,完美的技术流程或完美的数据管理流程,因此所有组织都会遇到与数据质量有关的问题。”
输入过程充满了创建不良数据的机会,例如丢失或多余的字段,大写/小写或音译。纸质记录,电子表格和其他形式的数据可能会被误读或采用其他格式。
应对挑战
全球产品交付的电子商务爆炸式增长使人们越来越关注更好的需求 资料品质。沃克说:
“没有基于规则的引擎会告诉您要运送给别人的两百美元的产品是否会到达目的地。您需要知道风险,然后再承担风险。”
根据Walker的介绍,对以下基本知识的了解是一个开始:
什么是正确的地址或客户记录?
那里必须有什么?
什么不应该在那里?
字段应包含什么?文本?数字?人物?
您来自各种来源的信息是否适合每个领域?如果没有,该怎么办?
这是正确的吗?
是最新的吗?
内部 资料品质通过将数据与一组内部标准进行比较并根据需要进行清洁或更新来维护数据。外部数据质量要复杂得多。除了确保供应商付款条款准确,产品信息完整且正确拼写之外,例如,还必须验证外部数据。
验证
验证回答了一组不同的问题:
如果该地址是有效地址,那么该人或公司是否实际居住在该地址?
它用什么语言?
货币与国家/地区相符吗?
购买者的年龄是否足以进行此类购买,例如保险单?
重复的变体-他们是同一个人吗?相同的地址?
国际验证挑战
梅利莎(Melissa)开始国际扩张时,沃克说,他们发现国际上的数据质量存在许多问题。直到最近,才有可能在未经验证的农村地区验证身份和地址-国际数据具有许多可能发生错误的潜在点。语言差异,数据格式,地址格式,字母格式和字段匹配都是错误数据的可能来源。
每个国家/地区的唯一数据格式必须逐场匹配,以确保数据正确。例如,日语文本具有三个不同的脚本以及使用罗马字母的音译;东欧,中亚和北亚以及高加索地区使用的西里尔文字特别具有挑战性。
根据预期的英语元音之间的距离,可以使用一些工具与算法进行字段匹配,例如Levenshtein或Jaro-Winkler,但不能用于非英语或非拉丁语的语言,例如西里尔字母。他说:“人们认为他们可以对它进行音译,然后再对弦进行处理,但这并没有反过来。”
名称验证挑战
个人名称可能是重复记录的来源。哪些昵称或别名在不同国家/地区很常见?一个与“贝蒂·史密斯”在同一地址的名为“伊丽莎白·史密斯”的美国客户可能是同一个人,但是一个名为“ Nyusha Tsvetaeva”的乌克兰顾客是否可以与“安娜·茨维塔耶娃”相同?如果她的名字写成“НюшаЦвета?ева”,而不是译成拉丁字母,那么一家美国公司知道这三个人是同一个人的可能性有多大?
解决验证挑战
沃克说,在国际上进行地址验证是一个特别困难的问题。在印度,验证过程包括梅利莎(Melissa)与国家政府,谷歌以及印度的所有制图公司合作,以导入,合并和构建不仅包括主要城市,而且还包括较小城市的数据集。
他说:“在印度,我们有30个人,除了打电话以外,什么也不做。” 借助Melissa的工具,始终可以对客户的身份档案的某些组件进行街头检查,但是在最近两年中,当他们与政府,电信公司和其他客户数据源进行交谈时,他们开始意识到,完整的实体验证可以被执行。
并非所有国家都具有必需的,政府认可的身份识别系统。例如,印度有一个唯一的12位数字的身份证号码,称为“ Aadhaar”,印度的某些居民可以获得该号码,但该计划是自愿的,涉及费用,而且政府并未正式批准其使用以进行身份??识别。
沃克说,他们发现,为了获得液化石油气做饭,居民必须提供经过验证的地址和身份,居民购买手机一样。因此,梅利莎一直在与印度的煤气和电话公司合作以进行身份??和地址验证。这样就可以获取一个国家ID,将其与一个人匹配,将其与一个经过验证的地址匹配,然后进行交叉链接。
数据质量轮的发展
梅利莎(Melissa)使用了 验证问题 在印度作为跳板,开发匹配的引擎,配置文件引擎和通用的清理引擎,并扩展到客户数据以外的领域。
“我们开发了完整的数据质量工具,以适应我们所看到的。我们真的从中学到了东西。”
因为它们是第一个在国际范围内解决匹配问题的公司,而且是唯一一家能够在西里尔语中进行匹配的公司,所以在全球开展业务的大公司都与他们联系,以帮助他们解决大规模数据存储中的问题。
“我们遍历了他们的数据问题目录,并设计了我们的数据质量工具来解决这些实际问题。他们在地址,企业,电话号码等方面都有问题,”他说。
数据质量:并不性感
并非所有公司都能看到数据质量投资的价值,Walker表示,客户通常很难看到数据质量方案的好处。凯文·麦卡锡(Kevin W. McCarthy) 数据质量的图像问题,将数据质量比作在后院聚会之前必须完成的无聊的堆场工作过程:
“您如何说服利益相关者 资料品质 难道不是记录级乏味的“仅IT”的祸根,而是整个组织中影响广泛的各种数据项目的业务必需和促进者?”
麦卡锡说,就像堆场工作一样,正确的工具可以使数据质量变得更加容易,例如当他从推草机切换到骑马割草机时。同样,资料品质 借助机器学习和直观的工作流程为更广泛的业务而构建的工具,使一大批利益相关者的工作变得更加轻松。
“数据质量可能没有荣耀,但不可否认的是,它对您的数据管理项目具有戏剧性的积极影响,”麦卡锡说。
参考数据是关键
沃克说,他发现有些人试图通过写自己的名字或地址解析器来重塑轮子,但他们并不了解。“这需要永远,然后他们意识到已经浪费了六个月或一年的时间,而且没有取得任何进展。”
在一个网络研讨会系列中,Walker确实做了“构建与购买”,他帮助公司确定DIY路径是否真的是最佳选择。“分界点是它是否由参考数据驱动。”
根据DMBOK 2,许多人认为参考数据只是简单的代码和描述,但是许多参考数据要比这复杂。例如,邮政编码数据集通常将包含有关州和县以及其他地缘政治属性的信息。
Walker使用五位数的邮政编码10233进行说明。因为它是五位数,所以其他引擎会说它适合该模式。“但是我们进去了,我们实际上是对邮政编码进行评估,我们可以告诉您10233不是有效的邮政编码,如果您没有参考数据来备份它,您将不会发现。” Walker说,根据公司自身的内部知识创建词典与能够从授权来源获取外部参考数据之间存在非常明显的区别。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群