全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
711 1
2022-08-01
如何通过几个简单的步骤解决各种数据问题?在第一部分中,我将讨论丢失、过时和未观察到的数据、生产成本高昂的数据,以及脏、不平衡和非结构化数据。第二部分处理有偏见、不一致、孤立、太大或快速流动的数据,以及安全/隐私和精度问题。第二部分还解决了特征太多(宽数据)的情况以及与高维数据相关的问题。数据泄漏将是另一篇文章的主题。

数据中的噪声
缺失数据
丢失数据的原因有多种:答案不完整的调查或数据被删减。后者发生在您测量一个组件在 3 年时间段内的寿命时,但并非所有组件都在 3 年内死亡。此外,长时间运行实验的成本很高。在这种情况下,解决方法是像精算师那样使用适当的生存模型来构建预期寿命表。对于真正缺失的数据(第一种情况),决策树等技术效果很好。回归技术效果不佳。但是,一种称为偏最小二乘法(PLS) 的回归技术可以很好地处理这种情况。

未观察到的数据
一个很好的例子是 Covid 感染和无需测试即可恢复,因此无需数据追踪。一开始,这些案例被大大低估了,因为没有观察到。他们远远超过有问题的病例,因此显着偏向流行病学模型。要了解隐藏的、未捕获的数据,解决方案是聘请一位非常擅长想象所有潜在场景的中立顾问。流行病学家厌恶风险,统计学家并不总是能看到全局。所以你需要一个受过良好教育的非专家的意见,他们可以开箱即用。另外,寻找替代数据。在 Covid 的情况下,污水数据可能会有所帮助。

昂贵的数据
一个典型的例子是临床试验。一些供应商专门帮助公司为更小而不是更大的数据设计模型。解决方案归结为良好的实验设计,并从小型或适度的数据集中提取最好的。寻找生物统计学模型,作为起点。其中许多模型适用于各种环境,而不仅仅是临床试验。

脏数据
您的数据集可能包含重复的记录或重复的 ID。如果基于用户输入,它可能包含错误字段,例如邮政编码中的拼写错误。某些字段可能未正确编码。或者数据是来自多个来源的混合,每个来源具有不同的特征集,或者相同的特征但测量方式不同,因此不兼容。自动化数据捕获(让用户在您的网络表单上选择邮政编码,或根据城市自动填写)。创建一个数据字典来检测附加到每个特征的最高值:例如,一个整数值可能设置为 99999 或 NaN,这意味着它丢失了。包含特殊字符(逗号)的字符串在解析过程中被截断:如果它表示一个 URL,那么该 URL 现在是错误的。执行数据核对:在此处查看我关于此主题的专利. 解析文本数据时,请使用强大的解析器。您的工程师需要掌握正则表达式!最后,寻找异常值:这些观察不一定是错误的,但它们总是很有见地。

不平衡数据
欺诈性信用卡交易约占 10,000 笔交易中的 4 笔。在医疗数据中,有些病例非常罕见。一种解决方案是重新平衡数据并过度采样(例如)您的欺诈交易训练集。越来越多的合成数据被用来填补这一空白。由观察结果与合成数据的混合组成的增强数据通常效果最好。在这里查看我关于这个主题的演讲。

非结构化数据
要充分利用非结构化数据(电子邮件、客户支持对话),请成为 NLP 技术专家。有多种方法可以构建非结构化数据,请参见此处。简单地提取关键字列表并执行关键字匹配的基本技术容易出错。例如,某些关键字不能拆分(旧金山是一个词,而不是两个)。删除特殊字符或无法处理外来(重音)字符的文本解析器可能会在您的数据中产生噪音。

过时的数据
您为创建经济指数或衡量衰退而收集的数据会随着时间而变化。数据集中的查找表需要定期更新。如果大多数人停止检测或该疾病不再是威胁,那么追踪 Covid 阳性检测将毫无用处。特征的定义和测量会随着时间而改变。合并新旧数据是可以的,但您应该在数据集中包含时间戳。并记录所有严重影响数据的事件。在设计数据收集程序时,您需要预先讨论数据更新和维护。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-8-16 20:32:37
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群