大数据:2020年最容易被误解的行业?
在世界上正在发生的所有其他事情中,大数据是另一个有争议的话题,并且对话无处不在:论坛,社交媒体网络,文章和博客。
那是因为大数据确实很重要。
我并不是在说这个行业的人, 而是在理解幕后发生的事情与媒体之间的脱节之处。众所周知,大数据往往信誉不好,但这并不是数据的错,而在于数据的使用方式。
互联网是最大的数据来源,而组织使用它是最重要的。虽然可以对数据进行分析以获取可做出更具战略意义的业务决策的见解,但也可以从社交网络中窃取数据并将其用于政治目的。大数据几乎可以无限使用,它可以使我们的世界变得更美好,本文将消除所有误解,并希望您说服大数据造福于人类。
真正的大数据是什么?
我们大多数人都知道大数据是什么,但是我认为这里是快速总结的关键。我们都已经观察到行业专家和商业领袖如何妖魔化大数据,但这就像妖魔化刀一样。少数人可能会出于恶毒目的使用刀,而绝大多数人会在没有人的情况下难以自给自足。
这都是关于 上下文的。
我会给行业以外的任何人一个简单的解释是,大数据是指 现代数据实践的规模, 速度 和 复杂性 ,这些问题很难或可能无法使用传统方法来处理。
思想领袖/顾问兼作者道格·兰尼(Doug Laney)最初使用的术语是表示三个概念的函数,这些概念被称为“三个V”:
数量:大数据中的“大”部分涉及通过一系列来源收集的大量信息,这些来源包括商业交易,智能(IoT)设备和社交媒体网络
速度:大数据通过使用RFID标签,智能仪表和传感器来快速移动,这需要快速处理信息
多样性:大数据是多种多样的,其源于多种格式,包括数据库中发现的结构化数值数据,以及源于电子邮件,金融交易,音频/视频文件和各种类型的文本文档等格式的非结构化数据
监视资本主义:为什么有人讨厌大数据
社交网络,政府机构,公司,开发人员应用程序以及众多类型的组织都对您的工作感兴趣,无论您睡着了还是醒着。
一切都在接受调查和收集,这导致整个业务在收集称为 监督资本主义的大数据的过程中萌芽。
我认为这是大数据涉及每个人的方面。实际上如此令人担忧,以至于许多术语可以互换使用。
监视资本主义最初是由哈佛大学教授Shoshana Zuboff创造的,它 描述了从通过应用程序提供“免费”服务的公司购买数据的业务。在公司收集数据然后将对数据的访问权出售给第三方时,用户愿意使用这些服务。
从本质上讲,这是对个人数据的商品化,其唯一目的是出售其以牟取暴利,据一些分析师称,这使数据成为地球上最有价值的资源 。收集和出售的数据使广告公司,政党和其他参与者能够执行广泛的功能,其中包括专门针对销售商品和服务的人群,改进现有产品或服务或出于政治目的而收集意见。许多其他用途。
但这只是故事的一部分...
数据收集对于某些个人和整个社会可能具有各种优势。考虑使用Skycanner,Google Shopping,Expedia和Amazon Sponsored Products等网站。
短短几年前,比较购物需要在多个站点之间点击。今天,只需访问一个站点,我们就可以对几乎每种类型的产品或服务进行价格比较。所有这些站点都是围绕数据收集而构建的,它们代表了一种服务示例,有人认为这对电子商务体验至关重要。
如何获得大数据
数据可以通过多种方式获得。一种常见的方法是从应用程序开发人员处购买它,或从社交网络中收集它。后者通常仅限于应用程序的所有者或利益相关者。
另一种方法称为“刮网”。这涉及创建脚本来分析页面并收集公共信息。收集信息后,然后将收集的数据编译并以电子表格格式发送给最终用户以进行分析。称为 采矿 过程,这是分析数据并提取有价值的信息的阶段,类似于在岩石中淘金。
特定的Web爬网示例
几乎所有具有公开数据的网站都可以被抓取。人们可能熟悉的一些最有益的用途包括:
价格汇总网站
无论是预订航班,酒店客房,购买汽车还是其他消费品,对于希望保持价格竞争力的企业来说,网页抓取都是一种有用的工具。能够以最低价格采购最终用户的好处最大。
追踪世界新闻与事件
Web抓取可用于提取各种世界事件的信息和统计信息,其中包括新闻,金融市场信息和传染病传播。
我公司与美国和瑞士的大学生合作, 支持TrackCorona和CoronaMapper网站,这些网站使用了来自各种来源的抓取信息来提供与COVID相关的统计信息。
追踪假新闻
“假新闻”似乎无处不在,并且可以像野火一样在社交网络上传播。一些初创公司 正在努力通过使用
机器学习算法来解决新闻中的错误信息问题。 通过可以分析和比较大量数据的过程,可以评估故事以检测其准确性。尽管这些项目中有许多正在开发中,但它们通过从源头进行跟踪来代表错误信息问题的创新解决方案。
搜索引擎优化(SEO)
希望在搜索引擎中获得排名的小型企业和新创公司正在与主要参与者主导第一页的艰难竞争。由于SEO可能会非常具有挑战性,因此可以利用网络抓取来研究特定的搜索字词,标题标签,目标关键字和反向链接,以使用有效策略来帮助规模较小的竞争对手战胜竞争。
学术研究
互联网提供了几乎无限的数据源,可供研究专业人员,学者和学生用于论文和研究。Web抓取可能是从广泛领域的公共站点获取数据的有用工具,可以提供几乎任何主题的及时,准确的数据。
网络安全
网络安全是一个不断增长的领域,涉及计算机系统,网络系统和在线监视的安全性。除了公司/政府的关注之外,网络安全还涵盖电子邮件安全,社交网络监视/侦听以及其他形式的跟踪,以确保系统的安全性保持不变。
符合道德规范的网页搜刮
随着大数据的增长和发展,大数据始终在变化,其中一部分演变应包括形成一些公认的道德规范,以使空间不受腐败和管理不善的影响。
在Oxylabs,我们认为有一些道德方法可以从网络上抓取数据,而不会损害用户或为其提供服务的网站服务器的道德问题。
收集公开数据的准则应基于尊重第三方的知识产权和对隐私问题的敏感性。同样,采用保护服务器免受请求超载的做法也同样重要。
为了增加价值而刮擦可公开获取的数据是可以丰富数据前景并丰富最终用户体验的另一种建议。
底线
由于媒体对最近的丑闻产生的负面看法,大数据已获得了可怕的声誉。事实是,这是关于大数据的一个非常狭窄的定义。大数据只是指处理传统系统无法处理的大量多样数据。
大数据几乎无限地使用,其中一些最积极的,涉及优化的策略可以改善我们的个人状况,并改善整个社会。因此,事实信息应该公开并提供给所有人。
归根结底,这是关于如何使用数据的,作为世界上最大的代理提供商之一的高管,我可以证明一个事实,即当今世界上有许多创新的参与者正在使用大数据。数据是造福大众的力量。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!