弥合数字鸿沟
为什么数据如此重要?
尽管它与电力一样普遍,但很难充分解释关键数据对现代世界的重要性。从业务运营到解决环境危机,数据是释放洞察力并在各个部门开发智能解决方案的关键。尽管大数据已经有至少几十年的历史了,但其他类型的数据现在也正在普及。开放数据,外部数据,培训数据,黑暗数据–这些都是已经多方面的对话的新轮廓,可以理解的是,公众已不堪重负。
跨景观连接的城市灯光的卫星图像
对于我们这个行业的人来说,实际上只有两种类型的数据:您拥有的数据和您没有的数据。令人困惑的是,两者之间的界线并不总是很清楚。顾名思义,开放数据和公共数据应该易于访问。他们不是。甚至组织内的数据(本质上属于您的数据)也可以被锁定在操作孤岛或内部限制之下。人们热衷于开发AI产品,但是如果没有大量的训练数据就无法构建它们。这通常必须综合生成,这意味着您必须在打接球之前先建立好球场。
实际上,每个新业务都可以利用数据来获得竞争优势,但是事实是,有很多专业人员在使用数据方面接受了培训,他们花费了大部分时间来寻找数据。因此,难以量化数据的“重要性”。像互联网一样,只有当每个人(企业,政府和个人)都可以使用时,才能充分理解数据的无限使用。
数字鸿沟
有数据的人和想要数据的人之间有一个峡谷。开放数据运动的头五年涉及各种规模的政府,无论他们在哪里,都可以发布任何数据。结果是一团糟。缺乏标准,访问困难,即使您掌握了数据,数据也经常是开放数据的三个P中的一个或多个:部分,PDF或一片***。由于这些限制,使用公共数据成为少数人的一项技能,这与它的目的和开放数据运动所基于的透明性原则直接背道而驰。
“结果是一团糟。缺乏标准,难以访问,即使您掌握了数据,数据也经常是开放数据的三个P中的一个或多个:部分,PDF或一片***。 ”
长长的水上悬索桥
在过去的几年中,情况有所改善。各国政府加大了政策力度,重新设计了开放数据门户,以简化访问并为消费者提供更多用例。这是一件好事。致力于发布数据的政府和组织应进行迭代,以简化流程。但是,架起跨越鸿沟的桥梁不是他们的角色。我参加了会议,对于好心的政府来说,很容易陷入将数据交付给一系列用户和用例的高度特殊技术细节的困扰。
同时,弄清楚如何访问数据不是用户的工作。一般公民应该具有数据知识,但这并不意味着他们都必须学习如何运行Python脚本。没有能力检验他们的想法,大多数消费者就不愿意花费时间,精力和金钱来寻找获取感兴趣的数据的方法。
这样的结果是,数据生成者和数据用户都停留在数字峡谷的两侧,并从理论上探讨了一个人可以访问另一个人的优势。
有人预测,在未来十年中,数据几乎会破坏每个行业,从企业和政府到食品生产和医学研究,但这种预测基于这样一个假设,即数据在根本上或现在将很容易获得。现实情况是,当前情况并非如此,只有在拥有数据的人和可以使用数据的人之间架起桥梁之后,情况才会如此。简而言之,直到数据可用,数据才有用。
可用性神话
我和很多人谈到了数据,尽管每个人都认为数据很重要,但是有两个不同的群体:理想主义者和现实主义者。理想主义者希望以数百种不同的方式使用数据。他们想开发应用程序,构建可视化并将新的提要插入他们的BI工具中。他们现在想要AI。他们与现实主义者之间的区别(顺便说一句,他们想要同样的事情)是知道这将是多么困难。
在这一点上,对于数据的总体价值几乎没有疑问,但是对此值的任何置信度都假定已准备好使用它。事实是,无论我们是在谈论组织内部存在的数据还是在组织外部生成的数据,在开始看到每个人都兴奋的那种改变游戏规则的见解之前,需要克服一些运营障碍。
以采购数据为例。包括加拿大在内的许多国家/地区都将采购数据作为“开放”信息发布,可供一般消费和使用。值得花点时间考虑一下这有多有价值。每天,公司都会与政府(市场上最大,最受信任的买家)签订合同,并将这些合同提供给公众使用。在理想情况下,公民将能够使用此数据来查看其税金的支出方式,并询问有关其政府采购流程的重要问题。跨国公司赢得了多少合同?国防开支是多少?教育?环境呢?业务用例也很强大。
但是,这没有发生。
带有最小代码的屏幕
为什么不?
好吧,发布的数据与人们想要使用的数据不兼容。当前,为了查询数据或将数据注入模型,您必须执行以下一项或全部操作:
直接连接到供稿并监视其更新;
将Feed标准化为标准格式;
将子公司组织汇总到母公司;
对数据运行复杂的实体解析脚本,以提供组织及其赢得的合同的主记录;最后,
使用一些分析工具使数百万条记录易于阅读。
我不了解您,但这不是大多数人可以使用的技术。
尽管在改善采购数据质量方面取得了长足进步,但政府仍无法将上述所有内容叠加到供稿上;将数据发布出去是他们的工作。但是出于同样的原因,组织和个人都不必开发基础架构。在这两种情况下,所需的时间,精力和技术专长都是令人望而却步的。
使像这样的数据与最终用户兼容所必需的工作不能由提供者或消费者来完成,而是需要一套可以使该过程自动化的中间工具,产品和过程。
政府的作用
尽管政府越来越渴望透明,但他们并没有真正指导他们如何最好地公开其记录。虽然他们被告知他们的数据很有价值,但他们不知道哪个数据集代表了最高价值,或者该价值将如何向下游流动。通常,市政府不得不使用小型的,松散的开放数据部门来弄清楚他们的流程和政策,这些部门必须弄清楚要发布什么以及如何发布它们。这是一个艰巨的任务,并且还确保了政府发布的数据的特有性质不会很快得到修复。例如,如果旧金山释放了城市的建筑许可证,这对旧金山很有用。如果您可以将该数据与纽约和芝加哥的类似数据集进行基准比较,则可以使用市场指标来模拟全国的经济健康状况。当每个城市都这样做时,您将完全拥有其他东西。关键是更多的数据提供了更大的机会。与其考虑公共数据提供的个人机会,不如将开放数据视为一个全球难题,这对每个市镇和县都可以有所作为。
政府机构的规模,结构和性质使他们无法成为总体标准化和聚合所不可或缺的工具,这对于大规模使用政府数据是必需的。这是可预见的问题。各国政府彼此独立行事,因为对他们而言,调整工作以更好地为公民服务很重要。但是当涉及到数据时,这种定制会影响整个运动的效率。它将一个政府与另一个政府隔离开来,这意味着只能解决其数据可以解决的部分问题。
我们的政府可以访问应提供的大量数据,但要他们同时担任策展人和数字最佳实践的催化剂,这实在是太过困难了。
弥合鸿沟
尽管获取数据有多么困难,但是在过去几年中,已经看到了新产品和解决方案的开发,这些产品和解决方案可以帮助个人和组织以更少的精力访问更多数据。DataOps框架 变得司空见惯,并且数据科学作为一门学科继续发展。政府战略也已经发展。安大略省最近宣布成立数字和数据工作队,旨在帮助公民和企业直接从数据经济中受益。该工作队将与省的开放数据政策一起工作,并将帮助教育和定义最佳实践,以使人们能够有效地使用数据。
加拿大国会大厦
2013年,麦肯锡(McKinsey)将开放数据的价值定为每年3-5万亿美元,每当有人问及私有部门中公共数据的价值时,这个数字就会被淘汰。尽管这个数字令人印象深刻,但对于那些无法弄清楚如何在计算机上加载shapefile的普通数据消费者来说,这毫无意义。数据的价值是显而易见的,其好处是巨大的,但从根本上讲,要解锁此价值需要克服的操作障碍已使创新步履蹒跚。
2018年,有98.6%的公司渴望成为数据驱动的文化。数据科学部门的规模以及市场对分析和BI工具的巨大需求表明了这种几乎完全一致的观点,即数据是正确的最重要的事情。
这个数字的背后是这样一个现实,即使用数据来获得洞察力的愿望与实际完成工作相去甚远,这可以解释为什么同年Gartner发现87%的组织的商业智能成熟度较低。
为什么断开连接?这是同样的问题。数据提供者将更多的数据推向市场,而消费者则试图找出如何使用它们。数据科学家处于准备和处理阶段,而业务部门则需要结果。拥有数据的人与可以使用数据的人之间存在鸿沟,除非找到能够在两者之间架起桥梁的方法,否则我们永远不会发现数据驱动世界的好处。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!