今年秋天,可计算知识结构的各个方面知识百科- 它的 上本体(KKO)、完整的
知识图谱、与主要领先知识库的映射以及称为类型学的 70 个逻辑概念分组——成为开源的。在增加定义和映射方面取得长足进步一直是 KBpedia v. 1.60 的主要焦点。
与往常一样,KBpedia 结合了维基百科, 维基数据, schema.org, 数据库百科, 地名, 开放周期, 和 伞形花序 整合成一个整体,并用 20 个领先的词汇映射来补充这些映射,这些映射引入了新的知识库,并与现有的词汇、模式和实例数据集成以在 KBpedia 结构中工作。其指导知识图中有 55,000 个参考概念,与估计的 3000 万个实体相关联,其中大部分来自 Wikidata。
“除了我们最初设计 KBpedia 的所有原因之外,还有一个巨大的需求是带来一个可行的结构,该结构可以利用 Wikidata 和 Wikipedia 为用户提供一种连贯的方式来搜索、检索和组织他们的资产以满足他们的目的, ”高级校长迈克伯格曼说 认知公司和 KBpedia 知识结构的主编。
这可能被证明是更多地采用 KBpedia 的主要动力。维基数据和维基百科是通知 KBpedia 的两个主要资源,用户以协调的方式操作信息所需的就是在它们上面有一个可计算的覆盖,Bergman 说。
虽然这是一个明确的用例,但伯格曼还希望通过开源 KBpedia,“其他人可能会以我们无法看到的方式看到它的价值,我认为我们的满足将是看到新的想法和贡献开花结果,”伯格曼说。
例如,KBpedia 一直帮助支持机器学习和基于知识的人工智能为企业。对于大规模的知识图谱,几乎每个节点都是一个入口点或方面。由于是可计算的,KBpedia 结构可以进行推理和逻辑切片,以生成
机器学习和数据互操作性的训练集和参考标准。
在 KBpedia 开源公告中,有人指出“在过去十年中,在利用人工智能知识库方面取得了巨大进步。” 但是,公告仍在继续,限制仍然存在。一是依赖维基百科等从未为
人工智能或数据集成目的设计的知识源。第二个问题是没有可重复的构建块可以扩展到任何领域。
“人工智能既性感又有吸引力,但太贵了。我们希望 KBpedia 当前的开源版本能让我们更接近于克服这些问题,”该版本写道。
KBpedia 中的 AI 的便利——这些功能一直存在,但以前从未开源并免费提供给所有人——来自于 300 多个功能,用户可以在这些功能上训练机器学习。这些功能包括用于进行监督机器学习的丰富标签池。此外,几乎所有 KBpedia 的 55,000 个参考概念都可以使用定义、扩展语义搜索的同义词集和健壮的文本。将 KBpedia 组织成实体、事件、概念、属性和关系提供了进一步的区分能力。
对于有监督、半监督和远程监督机器学习,“你可以呈现未知的输入并获得识别和分类实体的输出标签,”Bergman 说。
“在监督学习中,一个主要成本是标记输出,并且通过正确、逻辑和一致结构的知识图,用户可以在几分钟内创建这些训练标签和集合。”
在传统的监督学习方法中,相同的任务会消耗 60% 到 80% 的所需的总努力。
和无监督学习,用户可以使用正确类型的数据集创建新功能——“通过操纵 KBpedia 知识结构适当界定的信息语料库,”Bergman 说。在无监督学习中,输出没有预先标记,构建良好的无监督学习结构的诀窍是创建训练语料库来运行算法。
“你必须确保用于学习的输入语料库的算法与你试图解决的问题正确绑定。因此,能够微调语料库的范围和边界对于获得更好的无监督学习结果也很有用,”他说。
对 C 级数据执行人员的帮助
借助开源 KBpedia v. 1.60,Bergman 正在解决许多 CIO、CTO、CDO,或对组织的知识资源负有责任的其他人想要了解更多关于如何处理它们的信息。
“他们听说机器学习正在发生的事情,但他们所有的内部数据集都不会相互交流,并且内部问题是对他们的信息有一个连贯的企业范围视图,”他说。这些问题通过以下事实得到解决,“KBpedia 是一个将现有内部知识资源整合在一起以克服'烟囱'问题的脚手架。其次,一旦这样组织起来,他们就可以使用 KBpedia 的固有结构对自己的训练集和训练语料库进行切片和切块,以进行监督和无监督机器学习,而成本大大降低。”
相关帖子DA内容精选
- 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
|