全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
3149 0
2022-04-01
Spotify 如何与苹果这样的巨头作战?一个词:数据。借助机器学习和人工智能,Spotify 通过提供更加个性化和定制化的体验为其用户创造价值。让我们快速浏览一下用于增强其平台的聚合信息层:


Spotify 使用自然语言处理 (NLP) 扫描有关您正在收听的音乐的论坛,然后将您的偏好与正在讨论的其他类似音乐相匹配;
分析音乐作品的音调、声音、响度、调性(即大调或小调)以及用于推荐类似歌曲和艺术家的其他几个因素;
当然,Spotify 在听音乐、跟踪重复播放或跳过歌曲时测量行为,建立偏好并因此改进推荐。
这里的核心数据在音乐中——歌曲的基本组成部分,如标题、艺术家和持续时间。选择要听的歌曲设置基线(也许你喜欢它的低音线)。其他所有内容都可以视为元数据:关于听歌方式、歌曲创作方式以及听起来像什么其他音乐的附加元素。




元数据,在这里,是 Spotify 算法的驱动力,它被不断地收集和应用,为你提供智能推荐,让你一直倾听。


什么是元数据?
简单来说,在技术行业中,“元”是指基本定义或描述。更直接地说,元数据提供了有关数据的上下文,而不是您在行和列中看到的内容。


这个定义相当宽泛,但这主要是因为它几乎可以用于任何目的——它可以告诉你每个列标题的详细含义、谁上传了数据以及何时上传数据、整个数据集的列数和行数、原始数据数据源,甚至仓储和驻留要求。


如何组织元数据?
有 3 种主要类型的元数据协同工作:管理的、描述的和结构的。每个都用于解释相应数据的不同目的。


结构元数据——提供对数据元素如何组织的洞察。这有助于快速轻松地导航,例如目录或页码。结构元数据允许将相似的数据组合在一起,记录独特数据集之间的关系。


管理元数据——提供有关数据的技术信息。它涵盖了数据来源、数据类型以及访问或使用许可等方面。


描述性元数据——添加有关所有者、数据创建/发布时间以及数据包含的内容的信息。基本目的是简化识别并提供其描述的数据的快照。


这些元数据类型的组合使组织能够有效地浏览大量数据,从而在需要时轻松找到所需内容。


元数据如何提高安全性、质量和透明度
为什么元数据很重要?
53% 的分析消费者难以定位和访问数据内容。随着数据量的增加,组织必须了解他们拥有的数据、数据的位置以及如何使用这些数据。


元数据的实用程序不以描述数据开始和结束。元数据可以更轻松地发现数据,并有助于增加对数据集的理解。以图书馆书籍为例。如果文本是主要数据,书皮可能有该书的简短摘要,以及其他人对该书的评论。重要的是,图书馆还可以附加数据,为图书提供类别、流派和唯一标识符,以便于组织和检索。


元数据还可以通过确保您的组织在数据集级别跟踪使用、共享和许可权限来帮助遵守法规要求。通过附加元数据以明确数据的使用方式、用途以及可以或不可以与谁共享,您可以在数据本身中构建安全性和合规性。


数据目录平台中的元数据管理
通过管理元数据,您可以有效地创建数据资产的百科全书。元数据管理是数据管理的一个子集,它本身就属于数据治理的范畴。


因此,关注元数据管理的主要原因与实施数据治理策略的原因相同:提高数据安全性、数据质量和整体透明度。


元数据如何提高安全性、质量和透明度
提高数据安全性:


元数据将使用限制和许可直接与数据联系起来
揭示数据所有权和维护者以明确角色识别
整合和编码与数据集相关的信息,使其不会丢失
提高数据质量:


设计/实施组织范围的本体
实体解析/记录链接更容易
洞察随时间的变化
提高透明度:


提高组织内和跨团队的可发现性
创建可审计的使用、访问和更新记录
在不泄露敏感数据的情况下共享信息
复杂的元数据管理不是将元数据视为存在于数据之外的附加属性或信息片段,而是以一种易于访问、实施和管理的方式将这些丰富的信息链接到数据集本身。


数据目录中的元数据有什么好处?
使用 ThinkData Works 的特定工具和功能,您可以从元数据中获得宝贵的收益:


自定义元数据——能够将任何元数据添加到数据集,包括链接/相关数据集、上传使用协议、成本和许可以及数据字典


可配置的属性定义——数据目录允许您在数据集中输入模式描述,将元数据与属性绑定


数据集版本控制/修订- 每个数据集结构的版本随着时间的推移而变化,并在每次更新数据时跟踪修订。这样,用户可以在更新模型和仪表板的同时关注数据的稳定版本


数据健康监控——基于数据随时间变化的报告和警报配置的仪表板,包括“宏观”信息(如行数和列数)或“微观”信息(如值类型或值边界)


访问审计– 描述用户行为、API 调用和对数据执行的其他操作的特定使用统计和信息。


灵活管理,严格治理
元数据管理是健全数据治理的关键部分,是有效数据战略中最关键的部分之一。我们知道每个组织都有独特的需求,所以一个好的元数据解决方案应该是强大的和可执行的,但要足够灵活,以适合每个公司的方式管理数据。


编辑推荐
1、2022年300个以上最佳免费数据科学课程
2、大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、机器学习模型方法总结
4、历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、机器学习如何应用于商业场景?三个真实的商业项目
6、数据工作者的自我修养 | 哪些技能是必不可少的?
7、《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、文本挖掘常用的107个语料库
9、一图读懂“东数西算”工程
10、零基础转行数据分析,看这篇文章就够了

DA内容精选

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群