全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2118 0
2022-04-26
在创建机器学习模型时,公司通常通过从不同来源复制相关数据来分割它们。模型通常在 20% 的数据上进行训练,而另外 80% 的数据则用于测试。严格的数据清理、特征工程和模型评估可能需要六个月或更长时间,在此过程中使数据过时,同时延迟洞察时间并损害发现。

传统的、过时的数据管理方法的第二个影响是洞察质量的下降。这种影响不仅归因于使用陈旧数据构建模型,还归因于关系意识不足、垂直数据孤岛断开、上下文化差以及关系数据管理技术的模式限制。

在现代数据结构中正确实施知识图可以纠正这些数据管理问题,同时增加机器学习的价值。在支持知识图的数据结构中部署数据虚拟化使数据科学家能够将机器学习带到他们的数据中,而不是相反,这会浪费时间和资源。

此外,图模型固有的灵活性及其利用互连关系的能力使得为机器学习准备数据变得更加容易,因为它们提供了改进的特征工程、根本原因分析和图分析等功能。随着数据管理和人工智能的融合,这一功能也是帮助知识图谱转变为未来 20 年主导数据管理结构的关键。简而言之,知识图对人工智能的帮助就像人工智能对知识图的帮助一样大。

数据科学家需要战略数据管理

数据组织正在处理的数据量和种类不断增加延长机器学习部署。跨孤岛或数据湖的不同数据格式、模式和术语延迟了需要这些训练数据的机器学习计划。缺乏上下文和语义注释使得理解数据的含义和对特定模型的使用变得困难。即使数据已充分上下文化,这些信息也很少保留,因此组织必须重新开始后续项目。快速移动的数据(例如物联网设备收集的信息)使复制这些不同数据所需的数月培训变得更加困难。组织被迫通过再次复制新数据来解决这个障碍,重新启动这个损害模​​型功能的耗时过程。

更好的方法是在数据结构层训练模型,而不是将数据复制到孤岛中。组织无需移动数据即可轻松创建训练和测试数据集。例如,他们甚至可以通过这种以知识图谱为基础的数据虚拟化方法,通过查询提取特征并提供训练数据集,指定随机 20% 的数据样本。这种方法说明了数据管理和机器学习之间的联系,以加快获得洞察力的时间,同时还可以在更多当前数据上训练模型。

获得高质量的机器学习洞察力

与关系或其他方法相比,知识图为理解企业数据提供了更丰富、更优越的基础。它们提供了节点边缘之间的上下文理解和关系检测,这就是图存储数据的方式。语义图数据模型显着增强了这种能力,该模型将业务特定术语标准化为一组层次化的词汇或分类法。因此,数据科学家可以天生理解数据的含义以及与任何用例的关系,例如机器学习。语义图数据模型还在模式级别对齐数据,提供有关概念或业务类别的智能推断,并避免使用术语或同义词的常规问题,同时提供企业数据的完整视图。

这些特征对于减少为机器学习准备数据所需的时间,同时从可用数据中产生高度细微的、情境化的见解至关重要。这种方法的另一个好处是图形特定算法与机器学习的相关性。它们允许数据科学家利用与聚类、降维、主成分分析 (PCA)和无监督学习有关的特定技术,这些技术非常适合在机器学习的图形设置中准备好训练数据。这些技术和其他技术(如图嵌入)可以加速特征生成过程或为数据准备提供影响分析。

融合数据管理和知识管理

知识图谱在机器学习中的总体效用证明了数据管理和知识管理相辅相成的性质。套用广受赞誉的谷歌研究教授彼得·诺维格(Peter Norvig )的话说,有了足够的数据,就不需要花哨的算法了。这就是将数据管理和知识管理合并到由知识图和数据虚拟化支持的统一数据结构中,提供更丰富、更高质量的数据,使组织能够在没有完美算法的情况下优化机器学习。

例如,有了关于他们购买习惯的足够数据,就不需要花哨的算法来预测哪些客户会对新产品感兴趣。数据管理和知识管理的融合通过为组织提供训练有素的模型和算法增强智能来为决策提供信息,从而最大限度地提高人工智能。


      相关帖子DA内容精选
  • 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群