全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1157 0
2020-09-15
相关不等于因果关系,但是您如何确定因果关系?
介绍
关联不等于因果关系 -这是从小就深深钻研数据科学家的口头禅
没关系 ..
但是关于后续问题的讨论很少。
您如何确定因果关系?
由于大多数书籍和示例均基于标准数据集(例如:Boston,Iris等),因此该问题进一步复杂化。
这些示例未讨论因果关系,因为所选的特征已经确定为因果关系(例如,影响房价的因素被选择为因果关系)
因此,如果我们从头开始(没有简化示例),您如何知道特定变量是否为因果变量?
首先,因果关系不能仅凭数据确定。
数据具有关联关系,但仅凭数据无法确定因果关系
要确定因果关系,我们需要进行实验或对照研究
背景
从统计意义上讲,如果两个或多个变量的值相应地变化(即一起增加或减少),则它们是相关的。另一方面,如果两个变量之间存在因果关系,则一个变量的出现取决于另一个变量,即它们表现出因果关系。例如,吸烟导致肺癌是一种因果关系,而吸烟与酒精中毒相关,但不会引起酒精中毒。  
通常使用皮尔逊系数或斯皮尔曼系数来测量相关性。如果存在相关性,则需要进一步调查以确定是否存在因果关系。
如何建立因果关系?
建立因果关系的最有效方法是通过对照研究。
在对照研究中,样本或总体分为两部分,两组几乎在所有方面都具有可比性。
然后两组接受不同的治疗,并评估每组的结果。
例如,在医学研究中,一组被给予安慰剂,而另一组被给予新药。
因此,简而言之- “要发现更改后会发生什么,有必要对其进行更改。” ...从扰动系统中可以学到的东西,从任何数量的被动观察中都无法发现。
资料来源:http : //people.umass.edu/~stanek/pdffiles/causal-holland.pdf
受控实验的设计是一项重要的工作:
您可能有测量误差问题
受试者可能会放弃研究或不遵循说明等问题。
您将需要对事物之间的关系进行假设,以确定推断。
您的数据可能不完整/不准确
目标因果关系数量可能未明确定义
令人困惑的变量。混杂因素是既影响因变量又影响自变量的变量,导致虚假关联。
选择偏差(自我选择,截断的样本)
测量误差(不仅会引起噪声,还会引起混淆)
规格不正确(例如,错误的功能形式)
外部有效性问题(对目标人群的错误推断)

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群