全部版块 我的主页
论坛 经济学人 二区 外文文献专区
752 9
2022-06-25
英文标题:
《Wasserstein Index Generation Model: Automatic Generation of Time-series
  Index with Application to Economic Policy Uncertainty》
---
作者:
Fangzhou Xie
---
最新提交年份:
2019
---
英文摘要:
  I propose a novel method, the Wasserstein Index Generation model (WIG), to generate a public sentiment index automatically. To test the model`s effectiveness, an application to generate Economic Policy Uncertainty (EPU) index is showcased.
---
中文摘要:
我提出了一种新的方法,Wasserstein指数生成模型(WIG),用于自动生成公众情绪指数。为了检验模型的有效性,本文展示了一个生成经济政策不确定性(EPU)指数的应用。
---
分类信息:

一级分类:Economics        经济学
二级分类:General Economics        一般经济学
分类描述:General methodological, applied, and empirical contributions to economics.
对经济学的一般方法、应用和经验贡献。
--
一级分类:Computer Science        计算机科学
二级分类:Computation and Language        计算与语言
分类描述:Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.
涵盖自然语言处理。大致包括ACM科目I.2.7类的材料。请注意,人工语言(编程语言、逻辑学、形式系统)的工作,如果没有明确地解决广义的自然语言问题(自然语言处理、计算语言学、语音、文本检索等),就不适合这个领域。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-25 07:47:46
Wasserstein指数生成模型:时间序列指数的自动生成及其在经济政策不确定性中的应用纽约大学芳州XIE经济系摘要提出了一种新的方法,即Wasserstein指数生成模型(WIG),用于自动生成公众情绪指数。为了测试模型的有效性,展示了生成经济政策不确定性(EPU)指数的应用。关键词:经济政策不确定性指数(EPU)、瓦瑟斯坦字典学习(WDL)、奇异值分解(SVD)、瓦瑟斯坦指数生成模型(WIG)JEL:C80、D801。引言Baker等人(2016年)创建了一种新的方法来衡量经济政策不确定性,即EPU指数,自其提出以来,该指数吸引了大量的关注,并得到了大量文献的支持。然而,它需要一个精心设计的框架和大量的手动工作来完成计算。最近,EPU生成过程的方法学取得了重大进展,例如区分不确定性的背景(Saltzman和Yung,2018),基于谷歌趋势生成指数(Castelnuovo和Tran,2017),以及修正西班牙的EPU(Ghirelli等人,2019)。我希望通过提出这种广义方法来扩展索引生成的范围,即WassersteinIndex生成模型(WIG)。电子邮箱:方舟。xie@nyu.edu(谢方舟)目前的通讯地址:546 Main St,Apt 437,New York,NY,10044。提交给《经济学快报》的预印本于2019年11月24日至11月27日接受。该模型(WIG)包含了几种广泛用于机器学习、单词嵌入(Mikolov et al.,2013)、Wasserstein DictionaryLearning(Schmitz et al.,2018,WDL)、Adam算法(Kingma&Ba,2015)和奇异值分解(SVD)的方法。这些方法背后的思想本质上是降维。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-25 07:47:50
事实上,WDL将数据集的维数降低到了它的基和相关权重,SVD可以再次缩小基的维数,以生成用于进一步分析的一维索引。我测试了WIGs在生成经济政策不确定性指数方面的有效性(Baker等人,2016年,EPU),并将结果与自动标记潜在Dirichlet分配(Bleet等人,2003年,LDA)方法生成的现有结果(AzquetaGavald\'on,2017年)进行比较。结果表明,该模型需要一个小得多的数据集才能获得更好的结果,而无需人工干预。因此,它还可以应用于从新闻标题快速高效地生成其他时间序列指数。最近,Shiller(2017)呼吁更多关注收集和分析经济利益文本数据。WIG模型通过促进机器学习算法从文本中生成时间序列情感指数来响应这一调用。方法和材料2.1。Wasserstein索引生成模型Schmitz et al.(2018)提出了一种无监督机器学习技术,将文档分类为主题,称为Wasserstein字典学习(WDL),其中文档和主题都被视为词汇的离散分布。这些离散分布可以简化为基数和相应的权重,以捕获数据集中的大部分信息,从而缩小其维数。考虑一个包含M个文档和N个单词的词汇的语料库。这些文件构成Y矩阵=ym公司∈ RN×M,其中M∈{1,…,M},和每个∈ ∑N.我们希望找到主题T∈ RN×K,相关权重∧∈ 换句话说,每个文档都是一个离散分布,它位于一个n维单纯形中。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-25 07:47:52
我们的目标是根据以下主题来表示和重构这些文档:∈ RN×K,相关权重∧∈ RK×M,其中Kis是要聚集的主题总数。请注意,每个主题都是词汇的分布,每个权重表示其关联文档,作为基础主题的加权重心。我们还可以通过首先生成单词嵌入和使用度量函数成对测量单词距离,即Ci j=d(xi,xj),来获得总词汇CN×N的距离矩阵,其中x∈RN×D,D(·)是欧氏距离,D是嵌入深度。此外,我们可以计算文档和主题之间的距离,即Sinkhorn距离。它本质上是一个2-Wasserstein距离,添加了熵正则化项以确保更快的计算。定义1(伸角距离)。给定u,ν∈ P(Ohm), P(Ohm) 作为Borel概率测度Ohm, Ohm  RN和C作为成本矩阵,Sε(u,ν;C):=最小π∈π(u,ν)hπ,Ci+εh(π)s.t.∏(u,ν):=nπ∈ RN×N+,π1N=u,π>N=νo,(1),其中H(π):=Hπ,log(π)i和ε是辛霍恩重量。给定单个文档的距离函数,我们可以为训练过程设置lossfunction:minR,AMXm=1Lym,ySε(T(R),λm(A);C、 ε),给定tnk(R):=ernkpnnk,λnk(A):=eakmPkeakm。(2) 在等式2中,ySε(·)是给定主题T和权重λ的重建文档,在Sinkhorn距离下(等式1)。此外,通过损失函数中的列式Softmaxoperation,可以自动完成方程1中T和∧为分布的约束。该过程在算法1中制定,我们首先通过从标准正态分布中随机抽取样本来初始化矩阵R和A,并对其取Softmax以获得T和∧。TL(·;ε)和∧L(·;ε)是从损失函数中获得的关于主题和权重∧的梯度。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-25 07:47:56
然后,参数R和A由Adam优化器利用手头的梯度和学习率ρ进行优化。Softmax操作的操作增益确保约束为单元单纯形(如等式2所示)。Saltzman&Yung(2018)提出区分“不确定性”在正面和负面语境中的使用。事实上,单词嵌入方法,例如Word2Vec(Mikolov et al.,2013),可以做得更多。他们不仅考虑给定单词的正面和负面上下文,还考虑所有单词的所有可能上下文。可以参考Cuturi(2013)的Sinkhorn算法和Villani(2003)的最佳运输理论结果。算法1 Wasserstein索引生成输入:单词分布矩阵Y.批量s.Sinkhorn权重ε。Adam学习率ρ。输出:主题T,权重∧。1: 初始化R,A~ N(0,1)。2: T型← S o f tmax(R)∧← S o f tmax(A)。3:对于每批文件,do4:R← R- 亚当(TL(·;ε);ρ) ,A← A.- 亚当(∧L(·;ε);ρ).5: T型← S o f tmax(R)∧← S o f tmax(A)。6: end forNext,我们生成时间序列索引。通过促进单分量奇异值分解(SVD),我们可以将词汇的维数从TN×KtobT1×K缩小。接下来,我们将t乘以∧K×mt得到Ind1×M,这是SVD给出的文档评分。将这些分数按月累加,并对指数进行缩放,得到平均值100和单位标准差,我们就得到了最终指数。2.2. 数据和计算我从《纽约时报》收集数据,包括1月份的新闻标题。1980年1月1日至2018年12月31日。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-25 07:47:59
语料库包含11934份文档和8802个独特标记。接下来,我对语料库进行预处理,以进行进一步的训练,例如,通过删除特殊符号、合并实体和对每个标记进行柠檬化。在这个线性化语料库中,我帮助Word2Vec为整个词典生成嵌入向量,从而能够计算单词的任意对的距离矩阵C。为了计算梯度(如算法1所示),我选择自动微分库PyTorch(Paszke et al.,2017),对损失函数进行微分,然后使用Adam算法更新参数(Kingma&Ba,2015)。然而,图3中给出的地块为1985年1月1日至2016年8月31日,以保持与Azqueta Gavald'on(2017)相同的范围。引理化是指根据上下文将每个单词转换成词典形式的过程。为了确定几个重要的超参数,我使用了机器学习技术中常见的交叉验证ASI。三分之一的文档用于测试数据,其余的用于培训过程:嵌入深度d=10,Sinkhorn权重ε=0.1,批量s=64,主题K=4,Adamlearning rateρ=0.005。一旦参数设置为其最佳值,整个数据集将用于训练,从而获得主题T及其关联权重∧。3、结果图1:原始EPU(Baker等人,2016年)、带有LDA的EPU(Azqueta Gavald\'on,2017年)和带有WIG的EPU(Sec)。2.1.如图1所示,WIG模型生成的EPU索引ClearyResemble原始EPU。此外,WIG比LDA更能检测到情绪波动,尤其是在重大地缘政治事件期间,如“海湾战争”、“布什选举”、“9·11”、“海湾战争II”等。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群