全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1943 76
2022-05-06
英文标题:
《Causality Networks》
---
作者:
Ishanu Chattopadhyay
---
最新提交年份:
2014
---
英文摘要:
  While correlation measures are used to discern statistical relationships between observed variables in almost all branches of data-driven scientific inquiry, what we are really interested in is the existence of causal dependence. Designing an efficient causality test, that may be carried out in the absence of restrictive pre-suppositions on the underlying dynamical structure of the data at hand, is non-trivial. Nevertheless, ability to computationally infer statistical prima facie evidence of causal dependence may yield a far more discriminative tool for data analysis compared to the calculation of simple correlations. In the present work, we present a new non-parametric test of Granger causality for quantized or symbolic data streams generated by ergodic stationary sources. In contrast to state-of-art binary tests, our approach makes precise and computes the degree of causal dependence between data streams, without making any restrictive assumptions, linearity or otherwise. Additionally, without any a priori imposition of specific dynamical structure, we infer explicit generative models of causal cross-dependence, which may be then used for prediction. These explicit models are represented as generalized probabilistic automata, referred to crossed automata, and are shown to be sufficient to capture a fairly general class of causal dependence. The proposed algorithms are computationally efficient in the PAC sense; $i.e.$, we find good models of cross-dependence with high probability, with polynomial run-times and sample complexities. The theoretical results are applied to weekly search-frequency data from Google Trends API for a chosen set of socially \"charged\" keywords. The causality network inferred from this dataset reveals, quite expectedly, the causal importance of certain keywords. It is also illustrated that correlation analysis fails to gather such insight.
---
中文摘要:
虽然在数据驱动的科学研究的几乎所有分支中,相关度量都被用来识别观测变量之间的统计关系,但我们真正感兴趣的是因果依赖的存在。设计一个有效的因果关系测试,可以在没有对手头数据的基本动态结构进行限制性预先假设的情况下进行,这是非常重要的。然而,与简单相关性的计算相比,通过计算推断因果关系的统计初步证据的能力可能会产生一种更具辨别力的数据分析工具。在目前的工作中,我们提出了一个新的非参数格兰杰因果关系测试的量化或符号数据流生成的遍历平稳来源。与最先进的二进制测试相比,我们的方法可以精确计算数据流之间的因果依赖程度,而无需做出任何限制性假设、线性或其他。此外,在不预先施加任何特定的动力学结构的情况下,我们推断出因果交叉依赖的显式生成模型,然后可用于预测。这些显式模型被表示为广义概率自动机,称为交叉自动机,并被证明足以捕获一类相当普遍的因果依赖。所提出的算法在PAC意义上具有计算效率$i、 我们发现了具有多项式运行时间和样本复杂性的高概率交叉依赖模型。理论结果应用于谷歌趋势API(Google Trends API)提供的每周搜索频率数据,以选择一组社交“收费”关键字。从这个数据集中推断出的因果关系网络,相当令人期待地揭示了某些关键词的因果重要性。它还表明,相关分析未能收集到这样的见解。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Computer Science        计算机科学
二级分类:Information Theory        信息论
分类描述:Covers theoretical and experimental aspects of information theory and coding. Includes material in ACM Subject Class E.4 and intersects with H.1.1.
涵盖信息论和编码的理论和实验方面。包括ACM学科类E.4中的材料,并与H.1.1有交集。
--
一级分类:Mathematics        数学
二级分类:Information Theory        信息论
分类描述:math.IT is an alias for cs.IT. Covers theoretical and experimental aspects of information theory and coding.
它是cs.it的别名。涵盖信息论和编码的理论和实验方面。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Statistical Finance        统计金融
分类描述:Statistical, econometric and econophysics analyses with applications to financial markets and economic data
统计、计量经济学和经济物理学分析及其在金融市场和经济数据中的应用
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
-->
Causality_Networks.pdf
大小:(714.12 KB)

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-5-6 09:05:52
因果网络Chattopadhyayic99@cornell.eduFAbstract-虽然在数据驱动的科学研究的几乎所有分支中,相关度量都被用来识别观测变量之间的统计关系,但我们真正感兴趣的是因果依赖的存在。事实证明,因果关系的统计检验很难构建;这种困难既源于精确定义因果关系的哲学障碍,也源于从哲学上合理的定义中获得操作程序的实际问题。特别是,设计一个有效的因果关系测试,可以在没有对手头数据的基本动态结构进行限制性预先假设的情况下进行,这是非常重要的。然而,与简单相关性的计算相比,计算推断因果依赖的统计初步证据的能力可能是数据分析的一个更具辨别力的工具。在目前的工作中,我们提出了一种新的非参数测试格兰杰因果关系的量化或符号数据流生成的遍历平稳来源。与最先进的二进制测试相比,我们的方法可以精确计算数据流之间的因果依赖程度,而无需做出任何限制性假设、线性或其他。此外,在没有任何先验的特定动态结构的情况下,我们推断出因果交叉依赖的显式生成模型,然后可以用于预测。这些显式模型被表示为广义概率自动机,称为交叉自动机,并被证明足以捕捉一类相当普遍的因果关系。所提出的算法在PAC意义上是计算有效的;i、 例如,我们找到了具有多项式运行时间和样本复杂性的高概率交叉依赖模型。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-6 09:05:56
这些理论结果被应用于谷歌趋势API(Google Trends API)的每周搜索频率数据,以获得一组选定的社交“收费”关键字。从这个数据集中推断出的因果网络,相当令人期待地揭示了某些关键词的因果重要性。它还表明,相关性分析无法收集这样的见解。内容1动机11.1格兰杰对因果关系的操作定义。21.2格兰杰因果关系的性质。21.2.1确定性因果关系。21.2.2引用性、对称性和及物性。21.2.3缺失变量和未观察到的原因21.3标准方法中的额外假设。22当前工作的贡献32.1组织。43量化随机过程和概率自动机43.1规范表示。53.2符号导数。73.3计算-同步字符串。84串扰概率模型84.1交叉概率有限状态自动机(XPFSA)94.1.1特定情况:无依赖性和相同样本路径。94.1.2方向相关性的概念104.1.3方向相关性的程度。115算法基因:自模型推理145.1实现步骤。145.2复杂性分析和PAC可学习性。155.3 QSP的PAC识别能力。15作者是芝加哥大学计算研究所和经济学与系统生物学研究所的研究员。他与康奈尔大学计算机科学系和机械与航空航天工程系有5次会面。与无因果关系相关X0 2000 400060008000001Timey-200B。因果关系-20-10010timeY0Fig。1.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-6 09:06:01
相关性与因果依赖。板A中的信号呈负相关;但在统计学上没有明显的因果关系。这是因为变量X的未来预测不能通过考虑变量Y的过去值来改进;X本身的过去值足以提供最大程度的正确预测(相同的参数适用于X与Y的互换)。相反,板B中的信号是因果相关的;虽然Xa的过去值对预测其自身的未来值没有用处(这是一种无偏随机游走),但详细的分析将表明,Ydo的过去值确实携带了独特的信息,可以改善X的未来预测。因此,除了XandY之间的负相关,从Yto X.6算法xGenESeSS:交叉模型推理166.1 xGenESeSS的实施步骤中,有初步统计证据表明因果依赖性(在格兰杰因果关系的意义上)。176.2 XGeneses和PAC可学习性的复杂性。177因果网络的生成187.1使用交叉概率自动机进行预测。197.1.1单个预测的融合:。208互联网搜索趋势的应用209结论21参考文献211动机“相关性并不意味着因果关系”是统计学中早期和经常学到的一课。显而易见的下一个问题几乎总是在初稿中没有提及:我们如何检验因果关系?这是哲学[1]、[2]、[3]、[4]、[5]、法学[6]、统计学[7]、[8]、[9]、[10]以及最近的学习理论中争论的一个老问题;专家们基本上未能就一种合乎哲学的操作方法达成一致。因果关系,作为一个直观的概念,并不难理解。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-6 09:06:10
对于如何从数据中推断因果关系缺乏共识,可能是因为难以将这一直观概念精确到数学上。“与艺术不同,因果关系是一个概念,人们知道自己不喜欢什么,但很少有人知道自己喜欢什么。”C.W.J.Granger[11]Granger试图获得因果影响的精确定义,并建立了一个有效的统计论述框架:考虑一个宇宙,其中变量在预先指定的时间点t=1,2,·进行测量。表示在n之前宇宙中所有可用的知识Ohm→n、 让我Ohm→n\\Y→n请注意此完整信息,除了在时间n之前由变量yt获取的值,其中Y→N∈ Ohm→NOhm→9包括在时间点t>n测得的新星,尽管它很可能包含对此类值的预期或预测。然而,这些期望只是Ohm→n、 在定义因果关系之前,我们需要额外的结构,即:o公理A:过去和现在可能导致未来,但未来不能导致过去公理B:Ohm→n不包含冗余信息,因此如果某个变量zt以确定性方式与一个或多个其他变量功能相关,则Z→n将被排除在外Ohm→n、 在此框架内,Granger提出了以下定义,并指出它不是有效的[12],即不直接适用于数据:定义1(Granger因果关系)。Y→如果给定一个变量Xn+1取值的集合,我们得到:Pr(Xn+1∈ A|Ohm→n) ,Pr(Xn+1)∈ A|Ohm→n\\Y→n) (1)格兰杰的概念直观上很简单:Y是X的一个原因,如果它具有改变X近期概率估计的独特信息。并非所有因果影响的概念都可以用这种方式表达,也不是所有哲学上的微妙之处都能得到充分解决。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-6 09:06:15
Granger的动机更加务实,他主要感兴趣的是获得一个数学上精确的框架,从而得出一个有效的或算法的解决方案——一个因果关系的具体统计测试。1.1格兰杰对因果关系的操作定义在给定时间点之前,对宇宙中的“所有知识”进行编码的时间短,定义1并不直接有用。假设一个人对一个向量序列Yt引起另一个向量Xt的可能性感兴趣。Letjn是在时间n可用的信息集,由向量序列Zt的项组成,即Jn={Zt:t5n}(2)如果Xt包含在Zt中,则Jn是关于Xt的适当信息集。此外,假设Zt不包括Yt的任何成分,并且definejn={(Zt,Yt):t5n}(3)用F(Xn+1 | Jn)表示Xn+1的条件分布函数,平均值为E(Xn+1 | Jn)。然后,我们可以定义:定义2.o关于Jnif:F(Xn+1 | Jn)=F(Xn+1 | Jn)(4),即Jn中的额外信息,不会导致Xn+1影响条件分布。一个必要条件是:E(Xn+1 | Jn)=E(Xn+1 | Jn)(5)o如果Jn=Ohmn、 通用信息集,以及ifF(Xn+1 | Jn),F(Xn+1 | Jn)(6),那么,Yn被认为是导致Xn+1的原因就Jnif而言,Ynis是Xn+1的一个表面原因:F(Xn+1 | Jn),F(Xn+1 | Jn)(7)o就Jnif而言,Ynis被认为不会导致Xn+1的平均值:(Jn),E(Xn+1 |Jn)- E(Xn+1 | Jn)=0(8)o如果(Jn)不等于零,那么Yn是关于Jn的平均值中因果n+1的初步证据。定义2更有用;再多一点结构,我们就可以得到一个有效的因果关系测试。我们将很快讨论这些常用的附加假设。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群