全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1718 0
2020-10-22
数据充实:更多数据通常是最简单的方法
对于数据科学,最经常出现的话题是建模。那里有几篇文章谈论数据准备,而只有一堆关于如何正确传达结果的文章。但是,几乎没有什么要涉及我们今天要讨论的主题:数据丰富。
根据我们在帮助公司有效地使用其数据方面的经验,在大多数(尤其是大型)组织中,最难获得的成果是一个背景。组织多次尝试解决特定的数据问题,但失败了。
“没有足够的数据。”
“这些模型还不够好。”
“我们无法对这些结果做任何事情。”
…结果很多人都太熟悉了。有时最简单的方法是退后一步并问自己:“这些数据在其他数据的上下文中意味着什么?”
让我们谈谈两种主要的数据丰富:数据集成和数据扩充。
数据整合
我们将数据集成理解为将业务各个部分生成的所有数据组合在一起。这看起来似乎很容易,但是在大型组织中每个部门的数据孤岛是非常普遍的,并且将它们放在一起有时是不平凡的。我们也可以在较小的公司中看到这种情况,特别是由于基于订阅的SaaS服务的兴起,导致不同的团队使用了不同的工具,因此所有数据都在各地复制和散布。
与人交谈:
如果您的组织中不止一个人,那么很可能会有其他人知道您不知道的事情;-)知识和技能方面的差异是任何现代公司的核心,但很多时候人们会像事实并非如此。由于遗留的组织结构,收购或独立的计划,团队经常陷入信息泡沫,而没有意识到同事可能坐在的所有有价值的见解和数据。我们的建议?在开始项目之前,请尝试考虑哪些信息可能有用,以及谁会激励您在组织中收集这些信息。很有可能,他们正在收集它。
假设情况不一样:
仅仅因为事物被称为相同或看起来应该代表相同的数据,并不意味着事实就是如此。在不同数据源之间匹配数据是该过程中最关键的部分,它可能影响或破坏您的分析。有很多原因使client_id  在不同团队中拥有的各种数据库中可能具有不同的含义。是将ID分配给客户端,不同产品的传统方式,还是简单地为不同数据库中的数据使用bigint与int(不同的数据类型)。回到上面的步骤,找到可以澄清事情并确保您的假设成立的人。
针迹数据:
Stitch Data是可用的出色数据集成工具之一。该服务允许您以结构良好的格式将数据从不同来源备份/保存到您选择的数据仓库中。无论是Google表格还是.csv文件,SaaS应用程序或正在收集的某些自定义事件。他们处理一致性,故障和维护,因此您不必这样做。非常适合缺少开发资源的团队。
数据扩充
我们将数据扩充定义为获取不是由您的业务生成的新数据,以便为您已有的数据提供上下文。这可能意味着要花钱在银行的信用评分投注页面上,获取汽车保险公司的天气数据或电子商务网站客户的社交媒体帐户。
蜜蜂:
如今,许多应用程序和Web服务都通过API提供对其数据的访问。这是开发人员以编程方式处理来自服务的数据而无需使用图形用户界面的一种方式。如今,已经有了适用于一切的API-天气数据,地图,电网信息,社交网络,健身应用程序,通讯工具,电子邮件工具,ZF机构……您可以满足我的需求。如果您能想到一些信息来扩充您的内部数据,那么很可能有一个API可以为您提供帮助。
全接触:
Fullcontact是扩充有关公司和自然人数据的最佳API。可通过电子邮件,Twitter句柄或其他个人信息进行搜索,它提供了从互联网上识别出的有关个人的公开信息。他们的语言和位置,可以接触到他们的社交网络或他们的主题。您可以确保以正确的语言和正确的渠道与人们就相关的事情进行沟通。*
扎皮尔:
我们喜欢这个产品。Zapier是扩充数据的最佳方法,尤其是在您没有太多可用的开发资源的情况下。它使您可以使用拖放界面通过其API将数千个应用程序连接在一起。无需担心错误,维护,部署或对新版本的更新。Zapier为您处理所有这些。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群