全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1159 0
2022-05-27
期限 ”数据质量”主要关注数据所拥有的准确性水平,但也包括其他品质,例如可访问性和有用性。有些数据根本不准确,这反过来又会导致错误的决策。一些组织促进事实检查和数据治理,并因此做出使他们具有优势的决策。确保数据准确的目的是支持短期(实时客户响应)和长期(商业智能)的良好决策。当正确代表现实时,数据被认为是高质量的。

考虑到这一点,高管和决策者必须考虑其数据的质量,而潜在的不一致可能会导致商业智能洞察力不可靠。例如,在使用预测分析时,预测应该基于准确和完整的数据。当数据不准确和不完整时,预测将只有有限的价值,错误的假设可能会严重损害组织。需要考虑的问题数据质量包括:

可访问性
完整性
客观性
可读性
时效性
独特性
用处
准确性
一些组织进行大量研究并建立良好的数据质量可能包括为研究方法开发特定协议。这些行为将成为良好数据治理计划的一部分。

数据质量的起源
1865 年,Richard Millar Devens 教授确立了“商业智能”(缩写为 BI)在他的《商业和商业轶事百科全书》中。他用这个词来描述亨利弗内斯爵士如何收集信息,然后在他的竞争对手之前采取行动,以增加他的利润。

很久以后,在 1958 年,Hans Peter Luhn 写了一篇文章,描述了通过技术收集 BI 的潜力。现代版本的商业智能使用技术来收集和分析数据,并将其转换为有用的信息。然后在“比赛之前”使用这些信息来提供显着优势。从本质上讲,现代商业信息专注于使用技术快速有效地做出明智的决策。

1968 年,只有具备极其专业技能的人才能将可用数据转化为有用信息。当时,从多个来源获取的数据通常存储在孤岛中。研究这类数据通常涉及处理碎片化、脱节的信息,并产生有问题的报告。Edgar Codd 认识到了这个问题,并在 1970 年提出了一个解决方案,它改变了人们对数据库的看法。他的解决方案建议创建一个“关系数据库模型”,该模型获得了极大的欢迎,并被全球采用。

数据库管理系统
决策支持系统 (DSS) 被描述为最早的数据库管理系统. 许多历史学家建议现代商业智能建立在 DSS 数据库之上。在 1980 年代,BI 供应商的数量大幅增长。商界人士发现了大数据和现代商业智能的价值。在此期间创建和开发了各种各样的工具,专注于以更有效和更简单的方式访问和组织数据的目标。执行信息系统、OLAP 和数据仓库是开发的一些工具的示例。数据质量的重要性有助于激发开发关系数据库。

数据质量即服务 (DQaaS)
1986 年,在廉价的数据存储之前,维护着巨大的大型计算机,其中包含用于交付服务的名称和地址数据。这允许邮件被路由到正确的目的地。这些大型机旨在纠正姓名和地址中常见的拼写错误和错误,同时还跟踪已死亡、搬家、入狱、离婚或结婚的客户。

这也是政府机构向“服务公司”提供邮政数据以与 NCOA(国家地址变更)登记处进行交叉引用的时候。这一决定为几家大公司节省了数百万美元,因为不再需要手动更正客户数据,并且避免了浪费的邮资成本。这种提高数据准确性/质量的早期努力最初是作为服务出售的。

互联网提供了大量数据
在 1980 年代末和 1990 年代初,许多组织开始意识到数据和数据挖掘的价值。CEO 和决策者越来越依赖数据分析。此外,业务流程为不同目的从不同部门创建了越来越多的数据。然后,最重要的是,互联网开始流行。

在 1990 年代,互联网变得非常流行,大公司拥有的关系数据库无法跟上它们可用的海量数据流。在此期间出现的各种数据类型和非关系数据加剧了这些问题。非关系型数据库,通常称为NoSQL,作为解决方案出现。NoSQL 数据库可以快速转换各种数据类型,并通过消除“有组织的”存储来避免 SQL 数据库的僵化,并提供更大的灵活性。

非关系型数据库是为了响应 Internet 数据、处理非结构化数据的需要以及对更快处理速度的需求而开发的。NoSQL 模型基于分布式数据库系统,使用多台计算机。非关系系统速度更快,使用临时方法组织数据,并处理大量不同的数据类型。对于一般研究,在处理大型非结构化数据集时,NoSQL 是更好的选择(大数据) 因为它们的速度和灵活性而优于关系数据库。“大数据”一词于 2005 年正式发布。

控制数据质量的三个基础
目前有三种基本方法可以实现真正的数据质量。它们有助于提供可用于收集有用的商业情报和做出正确决策的准确数据。这些开发和维护数据质量的方法是:

数据分析是评估数据完整性和状况的过程。它通常被认为是控制组织数据质量的重要第一步。这个过程强调数据的透明度,包括元数据和来源。
数据管理 管理从管理到退役的数据生命周期。数据管理定义和维护数据模型、记录数据、清理数据并定义其规则和策略。这些步骤有助于向应用程序和最终用户提供高质量的数据。
数据准备 涉及清理、标准化、丰富和/或转换数据。提供自助访问的数据准备工具现在被用于完成过去由数据专业人员完成的任务。
数据治理
到 2010 年,数据量和复杂性继续扩大,作为响应,企业在使用数据方面变得更加复杂。他们开发了组合、操作、存储和呈现信息的方法。这是开始数据治理.

有远见的公司成立了治理组织来维护业务数据,并开发了协作流程来使用业务所需的数据。但更重要的是,他们为数据质量标准、数据模型和数据安全开发了一种“以政策为中心的方法”。这些早期团体忽略了更大、更复杂的存储库的愿景,并专注于为数据定义、实施和执行智能程序的策略。只要遵循相同的策略,一个过程就可以在多个地方存储相同类型的数据。结果,企业对其数据内容承担了越来越多的责任。数据现在被广泛认为是一种有价值的企业资产。

数据治理涵盖可用性、完整性、可用性和安全性方面的数据整体管理。一个好的数据治理计划已经组织了一个由消息灵通的个人组成的管理机构,并针对各种情况制定了应对措施。必须明确定义数据治理行为,以有效地解释如何处理、存储、备份数据,并通常保护其免受错误、盗窃和攻击。必须制定程序来定义如何使用数据以及由哪些人员使用。此外,必须实施一套控制和审计程序,以确保持续遵守内部数据政策和外部政府法规,并保证数据在多个企业应用程序中以一致的方式使用。机器学习已成为实施数据治理的流行方式。

数据治理反映了组织的战略,数据治理团队组织起来在处理数据时实施新的政策和程序。这些团队可以由数据经理和业务经理以及使用组织服务的客户组成。致力于推广有关数据治理流程的最佳实践的协会包括大马国际 (数据管理协会),数据治理研究所, 和数据治理专业组织.

数据质量工具
单机数据质量工具通常会为一种情况提供解决方案,但从长远来看不会解决多个问题。寻找和使用数据质量工具的正确组合对于最大限度地提高数据质量和组织的整体效率非常重要。

发现最多适当的数据质量工具可能是一个挑战。选择智能和工作流驱动的数据质量工具,最好具有嵌入式质量控制,促进“可扩展”的信任系统。普遍的共识是,单一、独立的数据质量工具不会提供最佳结果。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群