经济学家的综合数据生成

1446

收藏 2022-04-16

摘要翻译：
随着越来越多的科技公司从事严格的经济分析，我们面临着一个数据问题：由于使用敏感、专有或私人数据，内部文件无法复制。读者只能假设被遮蔽的真实数据（例如谷歌内部信息）确实产生了给定的结果，或者他们必须寻找产生类似结果的可比较的面向公众的数据（例如谷歌趋势）。改善这种重复性问题的一种方法是让研究人员根据他们的真实数据发布合成数据集；这使得外部各方可以复制内部研究人员的方法。在这个简短的概述中，我们探索在经济分析的高水平上的合成数据生成。
---
英文标题：
《Synthetic Data Generation for Economists》
---
作者：
Allison Koenecke and Hal Varian
---
最新提交年份：
2020
---
分类信息：

一级分类：Economics 经济学
二级分类：General Economics 一般经济学
分类描述：General methodological, applied, and empirical contributions to economics.
对经济学的一般方法、应用和经验贡献。
--
一级分类：Computer Science 计算机科学
二级分类：Machine Learning 机器学习
分类描述：Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文（有监督的，无监督的，强化学习，强盗问题，等等），包括健壮性，解释性，公平性和方法论。对于机器学习方法的应用，CS.LG也是一个合适的主要类别。
--
一级分类：Quantitative Finance 数量金融学
二级分类：Economics 经济学
分类描述：q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学，包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--

---
英文摘要：
As more tech companies engage in rigorous economic analyses, we are confronted with a data problem: in-house papers cannot be replicated due to use of sensitive, proprietary, or private data. Readers are left to assume that the obscured true data (e.g., internal Google information) indeed produced the results given, or they must seek out comparable public-facing data (e.g., Google Trends) that yield similar results. One way to ameliorate this reproducibility issue is to have researchers release synthetic datasets based on their true data; this allows external parties to replicate an internal researcher\'s methodology. In this brief overview, we explore synthetic data generation at a high level for economic analyses.
---
PDF下载：
-->

English_Paper.pdf
大小:(97.8 KB)

马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

大多数88

2022-4-16 11:19:07

经济人的合成数据生成Allison Koenecke*Hal Varian在美国经济协会(AEA)年会上提出的动机随着越来越多的科技公司从事严格的经济分析，我们面临着一个数据问题：由于使用敏感、专有或私人数据，内部论文无法复制。读者只能假设被遮蔽的真实数据（例如谷歌内部信息）确实产生了给定的结果，或者他们必须找出可比较的面向公众的数据（例如谷歌趋势）来产生类似的结果[23]。一种改善这种重复性问题的方法是，isto让研究人员根据他们的真实数据发布合成数据集；这允许外部参与者复制内部研究人员的方法。在这个简短的概述中，我们在经济分析的高水平上探索合成数据生成。解释合成数据生成的一个类比涉及OpenAI的文本生成GPT-2模型[21]。该模型以l个起始行的文本作为输入，o根据提示输入额外的文本；当用户只给模型一句话时，她就会收到完整的故事情节。在经济应用中，我们将数值数据（如时间序列值）输入到agenerative模型中。然后，该模型产生类似但新的数据，这些数据保留了结构的特定spects，例如跨属性的协方差。通过这种方式，我们构建了种子的一个貌似合理的扩展--但不是一个揭示私人信息的真正的extens。使用敏感、专有或私人数据的未来出版物的理想轮廓大致如下：1.描述真实数据。描述生成合成数据集的合成数据生成模型。对真实数据和合成数据进行同样的分析。这两个数据集中结果是一致的。公开发布合成数据集。上述框架既允许外部代理复制内部研究人员的方法，也允许独立的内部代理通过访问真实数据来复制合成数据。考虑到这一点，我们转向描述可能对经济学者有用的生成模型的var ie ty。2合成数据的生成模型我们首先警告说，没有一种包罗万象的方法可以最好地生成合成数据：在选择数据生成方法之前，必须考虑随后的分析。例如，如果只需要捕获第一个和第二个矩，当分析要求更高的矩时，一般合成数据的计算强度就不会很高。此外，如果数据必须*koenecke@Stanford.edu,斯坦福计算与数学工程研究所*Google Economics Teambe在进行summar y统计时为了加强隐私而进行擦洗，那么在生成合成数据时就应该采取额外的预防措施。合成数据库(SDV)是一种相对基本但全面的数据生成方法[20]。本文用多元高斯系词计算柱上的协方差。然后对分布和协方差进行采样，形成合成数据。作为概念的证明，自由数据专家综合生成并使用关系数据集来开发预测模型。研究人员发现，使用合成数据和真实数据产生的结果之间没有明显的差异。虽然SDV允许对模型参数进行基本扰动，以创建噪声版本的数据，但它没有明确地解决更具体的数据隐私问题。然而，在机器学习社区中，有大量的文献涉及到用生成模型来实现虚拟私有；高斯机制经常被用来扰动输入，噪声是从正态分布的基础上采样的灵敏度[8]。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-4-16 11:19:14

在机器学习框架中，“隐私损失”可以在每次训练迭代中被消除，当lo ss达到预先定义的隐私预算时，它就会消失。这种训练通常在自动编码器上进行，它学习输入的潜在结构（使用“编码器”），然后重建输入（使用“解码器”）；网络的这两个部分一般都被训练到最小化重构损失。特别是，自动编码器技术DP-SYN已经被实验证明优于其他保护隐私的合成数据生成方法[1]。此外，防范基于模型反演和生成性对抗网络(GAN)的攻击对虚拟隐私具有重要意义；尽管训练过程是完全私有的[11]，即使使用联邦学习（如Google[19])时，攻击类型也能够重建训练数据。这些攻击的危害可以通过使用自动编码的基于R的生成模型技术来减轻，如ASP-AUGM（它要求用户包含公共数据种子以基于私有数据tra生成新的da ta）和DP-VaeGM（它基于onGaussian噪声生成一定数量的数据，但较少sta ble）[6]。这里所引用的exa mples都适用于分类任务；此外，还存在可适用于合成数据的直接私有回归[5,29]和关联规则[16,28]算法。接下来，我们讨论了关于鲁棒性的现有文献。经济学家熟悉使用酷刑测试来生成最坏情况模型，并利用打破结果所需的最小扰动（例如，在某个感兴趣的变量中颠倒一个符号）。可以对数据而不是模型进行健壮性检查，以根据真实数据进行检查（当生成合成数据时）是没有问题的。在深入研究领域，相似分析是对抗性机器学习研究的基石；它大部分遵循规范2 013的论文，该论文表明数据孔径扰动会导致图像的错误分类[24]。最近的工作研究了抵抗对抗性攻击所必需的神经网络鲁棒性[18]。Robustnes的研究不仅限于深度学习；也有人使用低阶近似的稳健回归来防御所谓的“训练数据中毒”[17]。在这种情况下，经济学家可以进一步控制从他们自己的、专有的或私人的数据中获得的结果的可转移性。我们在这里提供了对间接隐私的正式认识。域为D,范围为R的随机化算法A:D→R是（？,δ)-di-ertificial private,如果对于任意两个相邻训练数据集D，D\'D,最多只满足一个训练点，且任意输出子集S R,它满足:pr[A(D)∈S]≤E_pr[A(D\')∈S]+δ,其中i是隐私预算，δ是失败率[6],这些模型用于无监督的模型中。（？,δ)-di-ertificial private,ra是（？,δ)-di-ertificial private）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-4-16 11:19:20

如果discr iminator能够正确地将gener ator的候选数据和合成数据（与真实数据相反）分类，那么生成器就失败了。生成器将试图采取相反的行动来愚弄光盘播放器，因为它能够在真实数据和合成数据之间进行区分（即最小化这些数据集之间的最大距离）。特别是Wasserstein GANs利用给定度量空间上概率分布之间的Wasserstein距离[2]，在经济学文献中，GANs是对标准蒙特卡罗研究的一种有用的方法。例如，Athey等人[3]用Wasserstein GANs生成了真实的合成数据，然后用这些数据计算了平均tr值的估计量。除了使用系统的模拟研究设计之外，还提出了一种新的基于GANDISCRISIONATORS估计器的估计器，该估计器被发现比标准的间接推断估计器更有效[12]。这在结构估计中非常有用，因为人们的目标是从往往具有难以处理的可能性的经济模型中了解政策。最后，值得注意的是，隐私保护方法也可以扩展到GAN基因分级的合成数据，应用范围从图像ge ne ration[27]到临床研究[4]。虽然我们在这篇综述中只涵盖了几个生成模型，但值得注意的是，还有许多其他类型的深度生成模型值得探索，包括：变分自动编码器[14]、Autoregre ssive模型(MADE[9]、Pixel RNN[26]、Pixel CNN++[22]、WaveNet[25])、归一化流模型(RealNVP[7]、Glow[13])和基于能量的Mo dels[15]。展望未来，我们希望在电子工程学文献中看到更多的合成数据生成方法。参考文献[1]Nazmiye Ceren Abay,Yan Zhou,Murat Kantarcioglu,Bhavani Thuraisingham,Latanya Sweeney。PrivacyProfection合成数据易于使用深度学习。Michele Berlingerio、Francesco Bonchi、Thomas G-Artner、Neil Hurley和Georgiana Ifrim的编辑，数据库中的机器学习和知识发现，第510-526页，CHAM，2019。斯普林格国际出版社。[2]马丁·阿尔乔夫斯基，苏史密斯·钦塔拉，和莱昂·博图。瓦瑟斯坦·甘，2017年。[3]苏珊·艾希、吉多·因本斯、乔纳斯·梅茨格和埃文·芒罗。使用wasserstein生成对抗网络设计蒙特卡罗模拟，2019。[4]Brett K.Beaulieu-Jones，Zhiwei Steven Wu，Chris Williams，Ran Lee，Sanjeev P.Bhavnani，James Brian Byrd和Casey S.Greene。隐私保护的生成式深度神经网络支持临床数据共享。bioRxiv，2018年。[5]卡玛利卡·乔杜里和克莱尔·蒙特莱奥尼。隐私保护logistic回归。在D.K.oller,D.Schuurmans,Y.Bengio,L.Bottou,编辑，神经信息处理系统的进展21,第289-296页。Curran Associates,Inc.,2009。通常，生成器和鉴别器是各种神经网络。但是，我们也可以想象一个简单的模型，其中生成器和discr iminator都是简单的参数模型。生成器被训练为优化以增加鉴别器的错误率。直观地，可以将Wasserstein度量考虑到最优传输问题，其中目标是将一个质量分布传输到同一空间上的一个双质量分布。我们认为这是把一堆沙子从一个分布转移到另一个分布；应该移动沙粒，以便将运输沙子的费用降至最低？[6]陈清荣、崇翔、薛敏惠、李柏、尼基塔·鲍里索夫、达利·卡法尔、朱浩进。Di\'s erentiallyprivate data generative models，2018。[7]Laurent Dinh，Jascha Sohl-Dickstein和Samy Bengio。密度估计usi ng real nvp,2016。[8]辛西娅·德沃克，弗兰克·麦克雪里，科比·尼辛姆，和亚当·史密斯。在privatedata分析中校准噪声到灵敏度。在密码学理论，卷卷。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-4-16 11:19:21

3876,第265-284页，01 200 6。[9]Mathieu Germain,Karol Gregor,Iain Murray,Hugo Larochell E.made：用于DistributionEstimation的屏蔽自动编码器。第32届机器学习国际会议论文集，JMLR W&CP 37:881-889，2015，2015。[10]伊恩·古德费罗、让·普吉特-阿巴迪、迈赫迪·伊尔扎、徐冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿龙·考维尔和约书亚·本吉奥。生成性对抗网络，2014年。[11]布里兰·希塔伊、朱塞佩·阿特尼斯和费尔南多·佩雷斯-克鲁兹。GAN下的Deep models：collaborative Deep learning Information Leakage，2017。[12]Tetsuya Kaji,Elena Manresa,和Guillaume Pouliot。深度推断：结构估计的艺术智能。巴塞罗那GSE，2018年。[13]迪德里克·金马和普拉富拉·达里瓦尔。辉光：具有可逆1x1卷积的生成向量，2018年。[14]迪德里克·金马和马克斯·韦林。自动编码变分贝叶斯，2013。[15]延恩·勒昆，苏米特·乔普拉，雷亚·哈德塞尔，富杰·黄，和等。以能量为基础的学习教程。无法预测结构化数据。麻省理工学院出版社，2006.[16]李宁辉，卡达吉，董苏，曹建能。Privilbasis：频繁项集挖掘，具有更好的隐私性。VLDB基金会论文集(PVLDB),第一卷。5,No.11,第1340-1351页（2012）,2012.[17]Chang Liu,Bo Li,Yevgeniy Vorobeychik,和Alina Oprea。抗训练数据的稳健线性回归。《第十届ACM艺术智能与安全研讨会论文集》，AISec\'17,第91-102页，纽约，纽约，美国，2017年。Aleksander Madry、Aleksandar Makelov、Ludwig Schmidt、Dimitris Tsipras和Adrian Vladu。《走向抵御对抗性攻击的深度学习》，2017年。[19]H.Brendan McMahan，Eider Moore，Daniel Ramage，Seth Hampson和Blaise Aguera y A Rcas.Communication-e-Cient从分散数据中学习深度网络。2017年第20届国际艺术情报与统计学会议录。JMLR:W&CP卷54,201 6.[20]N.Patki,R.Wedge,K.Veeramachaneni.合成数据库。2016年IEEE国际数据科学与高级分析会议(DSAA),第399-410页，2016年10月。[21]Alec Radford,Je-Wu,Rewon Child,David Luan,Dario Amodei和Ilya Sutskever。语言学习者是无监督的多任务学习者。OpenAI博客，2019年。[22]Tim Salimans，Andrej Karpathy，Xi Chen和Diederik P.Kingma。pixelcnn++:用离散化逻辑概率和其他方法改进pixelcnn，2017年。[23]Seth Stephens-Davidowitz，HAl Varian和Michael D.Smith。超级碗广告的超级回报？定量营销与经济学(QME)，15(1):2017年3月1日至28日。[24]Christian Szegedy、Wojciech Zaremba、Ilya Sutskever、Joan Bruna、Dumitru Erhan、Ian Goodfellower和Robfergus。neural networks耐人寻味的特性，2013。[25]Aaron van den Oord,Sander Dieleman,Heiga Zen,Karen Simonyan,Oriol Vinyals,Alex Graves,Nal Kalchbrenner,Andrew Senior和Koray Kavukcuoglu。WaveNet：一个原始音频的生成模型，2016年。[26]亚伦·范登·奥尔德，纳尔·卡尔奇布伦纳，和科尔·埃·卡武库奥卢。像素递归神经网络，2016。[27]谢黎阳，林开祥，王舒，王非，周嘉雨。DI\'s erential ly private生成对抗网络，2018.[28]C.Zeng,J.F.Naughton,J.Y.Cai.二阶私有频繁项集挖掘。VLDB J,6（1）：25-36,2012年11月。[29]张军，张振杰，肖小葵，阴阳，玛丽安·温斯莱特。作用机制：隐私保护条件下的回归分析。VLDB基金会论文集(PVLDB),第一卷。5,第11号，第13641375（2012）页，2012年。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

三江鸿

2022-4-29 17:15:36

感谢分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群