要成为数据驱动型企业,公司需要数据。很多数据。
当然,他们有大量内部数据可供使用——他们的客户和销售数据、他们从订阅第三方数据提供商处获得的数据等等。但是网络上的所有数据呢?
从网络获取数据以帮助企业与分析有它的挑战。确保他们可以访问的数据始终是最新的更具挑战性。
公司经常尝试通过创建自己的网络爬虫来解决内部问题。但是网站在不断变化,许多网站使用阻止技术来阻止机器人。企业最终可能会花费大量资金,但仍无法以可靠、一致和高质量的方式获得所需的数据。
正如 Opimas 报告所述,网站数量正在迅速增长,预计到明年将超过 20 亿个网络数据集成—利用终极数据集. 报告称:“潜伏在网络上的数据总量将继续激增,未能成功利用这一来源的公司将很快被更精明的竞争对手甩在后面。”
“这就是我们进来的地方,”首席执行官 Gary Read 说Import.io,它提供自动数据提取、Web 数据和收集、数据准备和数据集成服务。“几乎我们所有的客户都尝试过这样做,但都失败了。” 在他们开始尝试编写数据抓取工具后不久,他们意识到这真的很难做到。
“您必须不断维护和更新您构建的代码才能使其正常工作,”Read 解释说。对于那些想花时间使用数据的公司来说,这是不切实际的。“网络上有很多问题的答案,但很难将这些数据提取出来并使其有用。”
赌注越来越高。不到一半的财富 1000 强公司或行业领先公司对最近的 NewVantage 做出了回应民意调查表示他们正在数据和分析方面展开竞争,甚至没有三分之一的人创建了数据驱动的组织或建立了数据文化。
数据自由
公司通过 URL 识别他们需要的数据,或者他们可以使用 Import.io 的自动建议功能来发现适合他们数据需求的站点。Import.io 的 Web 集成流程从提取数据开始——无论是显示的还是隐藏的、登录后可访问、存在于网站上的多个页面中,或者需要交互才能进入。
关于选择哪些网络数据可以使用或不能与 LinkedIn 相关的一个有趣的问题。几年前,LinkedIn 会向任何被视为从其网站上抓取数据的公司发送停止令,前提是它以未经授权的方式访问数据。hiQ Labs 是一家人才管理初创公司,它是使用自动机器人从公共档案中抓取 LinkedIn 用户信息的公司之一。LinkedIn 阻止了它,并将此案告上法庭。一名法官在 2017 年作出有利于 hiQ 的裁决。
最近,第九巡回上诉法院维持了该裁决,并指出几乎没有证据表明公开其个人资料的 LinkedIn 用户对该信息有隐私的期望:
“这真的很重要。它说明了更大的问题,比如 LinkedIn 等大公司是否可以在网络上建造围墙花园,并告诉人们你不允许以任何方式使用这些数据,”Read 说。“但我们是把数据放在那里的人,那么为什么LinkedIn要决定只有他们才能将数据用于他们自己的应用程序呢?这一切都说明了网络的开放和自由。”
寻找故障点
Import.io 和其他公司处理的另一个问题是,一些公司会故意在其网站上提供虚假数据,以阻止竞争对手成功使用这些数据。“每个人都从彼此的网站上获取数据,用于了解竞争性定价等用途,”Read 说。
Import.io 具有内置功能以确保数据质量并确保它在面对此类技巧时提供可信赖的数据。“我们一直在查看数据,发现异常或数据中似乎有问题的东西,”他说。
随着时间的推移,该公司已经建立了一个关于特定类型数据应该是什么样子的知识库,以便捕捉这些奇怪的东西。例如,如果从超市网站提取的数据显示一罐金枪鱼的价格为 2,000 美元,则其算法将识别出这种不一致。“我们使用从数百万个网站收集的知识和数据,并将其反馈到产品中,以进行数据验证和数据检查。”
如有必要,可以将人引入循环中。
“机器向我们展示了异常情况,而人类则在那里解释这些信息,”他说。“公司付钱让我们从网络上获取高质量的数据;他们可以用来做出关键业务决策的数据。”
Import.io 在客户请求的特定模式中以特定格式交付数据。
“你可以从地下开采石油,但在提炼之前,它是不可用的,”Read 说。“这里也是一样。您可以将数据从网站上拿走,但您必须对其进行改进和转换,以使其适合客户。”
关注数据隐私
为了客户的利益,公司在提取数据时必须小心遵守隐私法规。对于从欧盟公民那里收集数据的公司来说尤其如此,这些数据受制于GDPR法规。
该产品可以自动扫描它查找的所有数据,以查找是否有任何个人身份信息,并出于法律和道德原因屏蔽该数据。它从未存储或显示给任何人。
当网站使用 robots.txt 文件告诉搜索引擎其哪些页面可以发布到搜索引擎并从中调用时,Import.io 也会考虑。如果网站所有者不想发布这些页面,Import.io 根本不会从它们那里获取页面。
此外,它还具有防止其超载不同网站的功能。一些网站——比如小型企业网站——可能只能维持 10 个左右的并发用户。
“我们必须确保我们只以不会对网站性能产生负面影响的方式获取数据,”Read 说。“我们产品中的引擎了解站点及其性能,并且仅以不会对其产生负面影响的速度收集数据。我们想成为优秀的网络公民。”
Web 数据的用例
Import.io 的解决方案涵盖股票研究、电子商务和零售、在线旅游、销售和营销以及风险管理。
大多数情况下,客户会要求定期交付一组数据——每天、每周或每月。少数人要求更快的通知。例如,如果客户正在监视一个新闻站点,它可能想知道它何时发生了变化,并在该站点上发布的 20 分钟内将那条新闻传递给它。
“看到所有不同的用例 Web 数据都可以用于处理,这真是令人着迷,”Read 说。“动态定价引擎。建立训练模型。情绪分析。几乎每天我们都会发现一个新的用例。”
相关帖子DA内容精选
- 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
|