数据管理高度关注维护和管理元数据,而不是数据库本身。因此,大部分数据管理涉及良好的沟通和服务或文章的使用流行度等。数据管理者不仅创建、管理和维护数据,还可能参与确定处理该数据的最佳实践。数据策展人通常使用可视格式(例如图表或仪表板)处理数据,并存储带有附加元数据的“对象”,而不是文件。
数据策展人在信息技术 (IT) 和数据科学世界之间架起一座桥梁/商业智能. 大量数据可能随时可用,但如果没有正确分类和整理,它基本上是无用的。IT 部门在定位和提供请求的数据时会遇到问题,并且数据科学家,想要使用数据来创建信息丰富且准确的报告,会得到错误的数据。随着组织在数据使用方面的发展,数据管理者成为必需品。
了解如何实施数据目录
通过我们的在线课程开始为您的组织创建和维护成功的数据目录。
在这里注册
的使用和研究大数据仍然相对较新,始于 2005 年引入 Hadoop。因此,随着该领域的成熟,将继续开发新职位以处理新职责。在不久的将来,数据管理员的新职位将成为一些组织的必需品。如果没有数据策展人,数据科学家和
数据分析师他们将大量时间花在组织工作上,而不是寻找、准备和优化数据以进行分析。
组织哲学
几十年前图书馆使用的前数字卡片目录提供了一个很好的例子元数据. 本质上,元数据描述“提供有关数据的信息的数据”。一般来说,元数据提供数据的方式、时间、内容、地点和原因。元数据是在编目系统中使用的少量信息,在摘要中提供最基本的信息,使数据更易于查找和跟踪。
一个(主动)数据字典是一个集中式元数据存储库,使用通用软件提供有关数据关系、来源、使用和格式的信息。仅供设计人员、研究人员和管理员使用且“不是 DBMS 软件的一部分”的数据字典系统称为“被动数据字典”(这些是手动更新的,无需更改 DBMS)。数据字典通常使用电子表格格式组织,每个属性列为一行,每列标记为一个元素。包含在 a 中的常见元素数据字典是:
属性名称:每个属性都有唯一的标识符(属性是定义对象特征的规范)。
可选/必需: 表示在保存记录之前需要的信息。
属性类型:定义字段中允许的数据类型(日期/时间、文本、数字、枚举列表、布尔值和唯一标识符)。
随着大数据研究的扩展,数据目录已经越来越受欢迎。数据目录通过充当搜索引擎和 wiki(允许用户协作创建网站内容的服务器程序)来发展组织元数据的概念,并使分析师更容易找到他们需要的数据。
任何用户都可以使用数据目录作为数据研究期间的第一站,通常位于云或本地服务器中。它自动索引数据系统。部分搜索引擎,一个数据目录通过数据库和 BI 系统爬行以找到正在寻找的数据。
数据管理者是将元数据的组织提升到一个新的水平并使用数据字典和数据目录的人。策展人需要对存储数据的系统以及可用于处理数据的工具有很好的了解。关于数据集、数据库和数据管理的最新知识是必要的。数据管理员还了解执行的各种类型的分析,以及数据科学家和管理层的期望。最终,数据管理者帮助数据科学家提高工作效率。
数据管理者简化分析过程
数据管理者填补了数据科学家和数据分析师之间的空白。他们通常对数据和分析工作负载的理解比数据工程师,因为他们与管理和营销更紧密地合作。
数据科学家在数据中找到意义,但依靠 IT 提供数据。数据科学家开始分析通过向 IT 发起工作请求来进行项目。该请求描述了项目所需的数据,以及详细的格式要求、更新频率以及执行分析所需的工具。然后,IT 将请求分配给数据工程师,由他检查任何其他要求,然后找到请求的数据。
但是,如果数据没有组织,当数据科学家试图将他们的需求传达给 IT 部门时,通常会出现相当多的混乱。数据工程师了解基础设施,数据科学家了解数据的含义,但如果没有有组织的数据,这两个团队很难沟通他们的需求。数据管理员提供了一个系统,使 IT 和数据科学家能够顺利、高效地(大部分时间)一起工作。
数据策展人工具
随着组织适应包含大数据,数据管理者成为提高组织和个人效率和生产力的必要条件。他们在组织内提供服务。数据管理者有多种工具和网站可用于他们的工作:
数字策展资源:数字策展人和数据创建者的工具目录。
DCC 工具:策展和数据管理工具的集合。
OpenRefine:一个免费的开源工具,设计用于处理复杂、混乱的数据(和转换格式),通过互联网扩展它,并将其链接到其他数据库。
DMP 工具:一个免费的、开源的、用于创建数据管理计划的在线应用程序,根据资助机构对拨款提案提交申请的要求。
这定性数据库(QDR):策划、保存、发布和促进社会科学中数字数据的下载。该存储库为管理、引用和使用定性数据提供了指导。
re3data.org:与 2000 多个研究数据存储库访问和共享数据。
数据管理与内容管理
数据管理涉及组织企业、医院或其他组织的数据。内容策展另一方面,涉及从其他网站收集相关、有用的信息并通过链接共享,以改善访问者的体验。
内容管理提供指向其他文章或资源的链接。它“向”访问者“推荐”感兴趣的文章或信息。这是一种提供在另一个网站上创建的引人入胜的材料的简单方法。策划内容允许网站以最小的努力涵盖更广泛的主题。策划的内容可以与介绍或意见相结合。
元数据和
机器学习
元数据提取元数据洞察力奠定了基础机器学习(ML) 模型。模型经过充分训练后,可用于提供更快的搜索和响应。使用传统的分层“文件”方案完成的搜索效率低下且笨拙。基于文件的数据查找方法基本上没有元数据。相比之下,数据管理非常有效。
数据管理将数据作为对象进行管理,并为存储非结构化数据提供了一个特殊的选项。对象存储平台使用数据的整体,无论是文档、图像、视频还是任何其他非结构化数据,并将其存储为单个对象。元数据驻留在获取的数据中,并带有关于对象和数据本身的描述性信息。
元数据锚定在捕获的数据或对象中。因此,对象存储使“版本控制”——机器学习训练中的一个重要特征。使用这种独特的功能来存储对象,数据科学家可以对他们的数据进行版本控制,让他们的合作者在以后重现结果。此版本控制功能有助于缩短研究时间并更快地获得所需结果。它还促进了可重复的机器学习管道,以及验证数据的可靠性。