全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2508 0
2022-04-26
二十年后,情况发生了变化,各种形式的图形数据库现在是该领域最热门的技术投资领域之一,尤其是随着它们对机器学习和深度学习系统的补充变得越来越明显。然而,图形数据库的核心挑战之一是联合问题——如何以安全、高效且易于使用的方式从多个数据库中获取信息。

重新思考数据和数据库
几年前,伯纳斯-李回到了关联数据的问题,以及为什么它未能达到他和许多其他人认为的那样起飞的程度。问题归结为几个关键点:

本体复杂性。Linked Data 最初的关键思想之一是,随着时间的推移,人们将开发一种通用的通信模式或协议,通常称为本体。事实证明,对于这样的本体应该是什么样子,每个人都有自己的想法,虽然在某些领域(尤其是https://schema.org)已经达成了重要共识,但事实证明,创建通用本体是一种非常困难的挑战。
所有权的复杂性。大多数数据库当时(甚至直到现在)都没有设置为单独运行 - 相反,它们保存大型关系表,通常是不安全的,其中包含可能有数百万人的信息,主要供公司在他们自己的营销中使用和促销活动。
管理的复杂性。这样做的一个后果是必须托管、编程和维护所保存的数据,这意味着如果您作为个人(甚至作为公司)拥有信息,您还必须设置托管云服务器,设置数据库应用程序,然后在该数据库应用程序中构建接口。其中大部分远远超出了普通人的技能,这样做的预算可能很快就会变得令人望而却步。
不成熟的标准。当 Berners-Lee 在 2004 年为《科学美国人》撰写有关语义网的文章时,该标准仍在不断发展,其中一些最强大的创新至少还需要十年或更长时间。
如果您阅读过上述文章,一个假设(如果没有完全指出)是数据将保存在个人数据库或小型企业数据库中的想法——例如,一位年轻母亲带着两个学龄儿童使用通过修改这些本地化数据库(一个属于家庭,另一个属于牙医)来联系牙医进行预约的服务。在 Berners-Lee 的设想中,这种方法可以解决许多困扰互联网的问题:

私人信息的容器。目前,您几乎无法控制现有的关于您的信息。通过创建私有的密钥数据库,人们可以存储他们需要的信息(从信用卡和医疗信息到孩子的学术报告),并且仅在有条件的基础上(在有限的时间内)向外部供应商提供。
信息中的重复和错误。通过创建这样一个个人数据库,拥有适当密钥的人可以访问它以获取某些信息的当前状态,而不是依赖于可能是较旧的、过时的参考资料。这减少了重复的数量和错误的传播。
使信息自我描述。大多数人对信息的底层结构或序列化完全不感兴趣。他们希望能够添加、编辑和删除有关事物的属性,并让数据库自己处理细节。理想情况下,他们甚至希望他们的数据“钱包”能够推荐组织数据的最佳方式,而不必陷入混乱的表示。
负责任地划分。写小说的作家想要跟踪谁在何时何地对谁做了什么,但不希望这些数据与税收信息混合在一起,除了外围。这意味着划分数据、将其放入文件夹但让这些文件夹能够共享公共信息应该是微不足道的。
并有机地联合起来。有时你确实需要将你的小说数据与你的所得税数据联系起来,尤其是在试图找出你最赚钱的角色和书籍时。这意味着应该可以使用数据创建将信息永久或临时连接在一起的复合文件夹。
使信息可查询……人们应该能够轻松地查询信息,几乎不需要专业知识,但也应该能够隐藏起来。
并且可更新。数据应该能够透明地更新,无论是通过公开的用户操作还是由于外部流程。
格式不可知。我希望能够将图片、声音文件、视频、3D 对象或任何可能的数千种其他格式放在一个盒子上,然后保存文件并透明地提取所有文件元数据,包括分类。另一方面,我希望能够以最符合我需求的格式获取数据。
简单又便宜。最后,在这个未来的世界中,创建一个新的信息“pod”应该足够便宜,您可以创建、合并、拆分和删除 pod,几乎没有限制,并且应该足够简单,平均 6 岁的孩子也可以做到。
互联。当您将事物放入数据存储时,事物应该自动且透明地连接。
这种信息观与当今世界上存在的信息观截然不同。它将数据库的概念与文件存储库和操作系统的核心部分结合在一起,它确实颠覆了我们与数据的整个关系。

了解固体
这最终是蒂姆·伯纳斯-李(Tim Berners-Lee)在 2004 年想要创造的,但将这一愿景变为现实需要 20 年的时间。2015 年,获得万事达卡、牛津大学和卡塔尔计算研究所的资助,以帮助启动该项目,并在此过程中成立了一家名为 Inrupt 的公司。到 2018 年,新项目的正式规范已经开始工作,现在称为Solid,作为全球世界联盟 (W3C) 的免费标准。到 2021 年 12 月,Inrupt 在 E 轮融资中又筹集了 3000 万美元。

Solid 如此新颖的原因在于,虽然 Inrupt 本身是一家为证明 Solid 理念而成立的商业公司,但规范本身是完全开放的。从理论上讲,这意味着任何公司(或个人)都可以创建自己的 Solid 实现,使用标准来确保集成协议。这在许多方面与 Berners-Lee 三十年前经历的类似旅程,创建了通信协议(当时是 HTTP)和服务器和客户端行为协议。

不同之处在于,整个过程的基础是 RDF。这不是很明显,主要是因为 RDF 本质上是作为一种语言来抽象其他类型的数据(这种方法也被data.world和越来越多使用 RDF 作为通用语言的其他服务提供商使用)用于关系和以文档为中心(XML 和 JSON 内容),并且越来越多地使用它来分解 Word、Excel 和相关的办公文档。这意味着许多相同的文档在上传时都会被有效地预先索引.

在此模型中,Solid Server 是可以为多个 Solid Pod 提供服务的主机(通常基于云)。Pod 实际上是一个单独的数据库,通常与给定的帐户或配置文件相关联。POD 有一个全局 WebID,其基本思想是这样的 WebID 是一个标识实体(个人、组织或代理)的令牌,用于联合身份验证(例如 OAuth2 和类似的单点登录标准所使用的) )。WebID 已经存在了一段时间,但它们也在不断发展,并且很可能会开始被分散式标识符 (DiD) 和可验证凭证正式取代,这两者都是 W3C 标准。

因为这些标准是并行开发的(并且旨在将区块链的大部分功能包含在更通用的级别上)SOLID pod 验证可能会继续跟踪这些标准几年。在许多方面,这个新兴的堆栈可能会成为 HTTPS 的继任者,并且可能会以在身份验证通道内提供更好的元数据支持并减轻使区块链如此成问题的工作证明方面的方式促进认证。

应该注意的是,由于 SOLID pod 可以有效地模拟自 Web 早期以来一直存在的服务器/文件路径模型,因此您实际上可以使用 SOLID 创建安全网站,而与当今的做法几乎没有偏差。但是,在实践中,您也可以利用此类 pod 来存储信息图,从而提供远超当今可用的元数据控制级别。

Solid Pod 又由容器组成,容器是文件夹的参考类比。实际上,Solid API 的一部分涉及创建一个表示链接容器系统的图形,而容器又具有全局、可验证的凭据。这意味着可以使用各种 Pod 容器为数据和资源分配访问控制。因为这个“文件系统”可以序列化为 Turtle,它还开辟了在系统之间发送“清单”而不必发送实际数据的潜力(这可以显着帮助发现)。

这种 Pod 更有趣的方面之一是它们简化了联合过程。一个组织可以有一个中央 pod,它反过来为从属 pod 提供数据目录,您可以通过简单的 HTTP SEARCH 命令访问聚合中任何给定 pod 中的公共(和特定私有)信息。然后可以将这些数据临时缓存和聚合在伪荚 (*groan*) 中,以充当虚拟化 pod 存储库,然后可以在不再需要时将其删除。

最后,值得注意的是,pod server 和 pod client 之间有一个非常明确的划分,可以更恰当地认为是 pod 应用程序,并不是所有这些都是面向用户的。

豆荚电位
到目前为止,这个愿景似乎只是构建美化文件系统的另一种方式,但值得探索一些用例,其中不少已经在积极开发中。

豆荚钱包
这是 Ur 的情况,但即使在这里也有许多潜在的应用。pod 钱包可以被认为是一个可导航的名称/价值存储,可以作为一个安全的在线钱包、一个真正管理书签的地方、一个个人数字资产管理系统、一个帖子调度器、一个便携式思维导图、一个虚拟钥匙圈,健康和医疗记录商店等。它允许您存储文件并将元数据与这些文件相关联,甚至可以对内容进行分类。请注意,这样的 pod 可以在线,但也可以很容易地与移动设备关联(可能与服务器 pod 同步以进行备份)。

内容管理系统和发布门户
Pod 很自然地适用于网页,但有一个转折——因为 Pod 能够与其他 pod 通信(并且因为这种通信更加安全),所以 Pod 本质上能够动态地利用其他资源,因此可以构建或缓存复杂的可以安装在手机、类似设备的手表上的内容管理系统。使用授权的护目镜或眼镜,这使得生命流媒体(在一个人周围创建真实或虚构的数据流)变得更加可行。此类 POD 还可以绑定到实体服务器上的缓存 pod,可能通过将机器学习管道添加到系统之间的元数据流中进行实时分类。

传感器吊舱
不仅仅是人可以拥有豆荚。传感器可以利用本地或聚合器 pod 来创建传感器字段的近乎实时的视图,然后可以使用正确的权限打开和查询,从而减少传感器本身对复杂协议的需求。因为 PODS 可以(理论上)设置为通过 SHACL 之类的东西进行验证,所以这也开辟了另一种可能更有趣的场景——一种控制执行器的安全方法,本质上是通过测试来确保执行器所做的任何配置更改命令(作为声明性三元组)实际上可以施加在传感器/执行器对(例如可控闭路电视)上。这对从智慧城市到无人机再到环境系统的方方面面都有巨大的影响。

数字孪生和系统协调
这可以延续到数字双胞胎的概念,尤其是在处理作为相互关联系统一部分的双胞胎时。实际上,系统的不同部分都可以有自己的 Pod,反映当前状态,而另一个 Pod 实际上可能是一个系统模拟器,可以与现有的组件 Pod 数据集一起工作,以便能够读取、测试和控制聚合系统。那么,在这方面,您开始处理 pod 系统,这是这类系统的真正潜力开始显现的地方。至少,聚合器 pod 还可以通过摄取管道(我希望看到与规范同步发展的 Pod 的一个方面)来简化整体状态语义。

金融交易和智能合约
我认为 Pod 将产生革命性影响的一个领域是使分布式账本真正可行。根据实现的不同,Pod 可以设置为不可变的——一旦写入,一组断言将保持不可侵犯,并且因为它们有可能创建有凭证的 DiD,这样的断言可以做区块链目前可以做的所有事情——包括(相当有问题)工作证明层。此外,与区块链相比,不可变的 pod 具有更大的语义编码空间。

这对于使智能合约可行也大有帮助。虽然被称为智能合约的东西已经存在了一段时间,但其中大多数往往是与法律术语捆绑在一起的一层薄薄的区块链。真正的智能合约本质上是一种语义协议,它指定了各方、资源、约束、行动、时间表、验证和合规规则,使 pod 成为执行和包含此类合约的理想工具。此外,此类合同更容易提起诉讼,因为此类合同实际上可以绑定到特定的法律法规。

供应链管理
在 Covid 之后,人们对变幻莫测的供应链问题变得更加敏感,而正是在这里,Pods 才真正具有发光的潜力。将豆荚放在 Pi 上,甚至编码到 RFID 芯片上,将其绑定到装运箱甚至单个产品。将另一个吊舱放在一个大型集装箱上,然后将吊舱放在轮船、卡车和飞机上。由于您拥有单一的通信协议,因此您可以在全球范围内创建系统中每个产品的动态视图,而无需耗时的扫描仪。由于图是声明性的,它在只读环境中工作得很好。通常,供应链管理的最大问题是知道关键点在哪里,以便您可以将船舶改道到不同的(负担较轻的)港口。

电子病历
医疗记录是复杂的东西,部分原因是随着时间的推移与这么多人进行了如此多的互动。一个 pod 的复合体实际上可以包含不同的部分,然后从它们中的每一方授予各方访问权限。医生可以将患者的个人笔记与给定的患者 EHR 号码相关联,但将笔记暴露给患者,临床医生可以添加有关测试的笔记,但不一定可以访问患者的个人信息,等等。没有人拥有所有信息,但每个人都拥有他们需要的信息。

元界/AR/VR
类似的方法可以用于元节或共享世界环境。人们在场景图中进行交互,但场景图实际上并不存在于单个服务器上。相反,场景图可以访问几个不同的 pod,一些用于化身(演员),一些用于模型,一些用于传感器场或类似结构,一些用于 IoT 设备,然后形成一个伪足,使人们可以进行交互彼此并在场景中。这还具有让用户随着时间的推移维护自己的历史记录的优势,而不是存储在单个大型上下文图中的历史记录。与数字孪生一样,其中一个场景图 pod 将充当场景内活动的协调器。

另一种情况也值得注意。在虚拟世界中,道具(如魔法剑或金币)根据交互从一个吊舱移动到另一个吊舱:小偷菲利亚从黑暗潮湿地牢场景中偷走了沉睡者施莱珀的剑,实际上删除了从 DDD 场景的 pod 中取出剑并将其添加到小偷的 pod 中。如果其他人看到 Philia,他们也会看到 Schlepper 的剑(如果它可见),但他们无法查找剑,除非他们专门询问 Philia 并且她允许他们查看详细信息。通过明确地将 pod 与事务绑定,您最终会得到一个事务模型,该模型减少了复制工件的可能性。当然,这也意味着 DDD 环境中的每一个 Gilder(金块)都有自己的标识符。


      相关帖子DA内容精选
  • 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群