全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1320 26
2022-06-15
英文标题:
《Computing a Data Dividend》
---
作者:
Eric Bax
---
最新提交年份:
2019
---
英文摘要:
  Quality data is a fundamental contributor to success in statistics and machine learning. If a statistical assessment or machine learning leads to decisions that create value, data contributors may want a share of that value. This paper presents methods to assess the value of individual data samples, and of sets of samples, to apportion value among different data contributors. We use Shapley values for individual samples and Owen values for combined samples, and show that these values can be computed in polynomial time in spite of their definitions having numbers of terms that are exponential in the number of samples.
---
中文摘要:
高质量的数据是统计和机器学习成功的根本因素。如果统计评估或机器学习导致做出创造价值的决策,数据贡献者可能希望分享该价值。本文介绍了评估单个数据样本和样本集价值的方法,以在不同的数据贡献者之间分配价值。我们对单个样本使用Shapley值,对组合样本使用Owen值,并表明这些值可以在多项式时间内计算,尽管它们的定义中的术语数量与样本数量呈指数关系。
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Computer Science and Game Theory        计算机科学与博弈论
分类描述:Covers all theoretical and applied aspects at the intersection of computer science and game theory, including work in mechanism design, learning in games (which may overlap with Learning), foundations of agent modeling in games (which may overlap with Multiagent systems), coordination, specification and formal methods for non-cooperative computational environments. The area also deals with applications of game theory to areas such as electronic commerce.
涵盖计算机科学和博弈论交叉的所有理论和应用方面,包括机制设计的工作,游戏中的学习(可能与学习重叠),游戏中的agent建模的基础(可能与多agent系统重叠),非合作计算环境的协调、规范和形式化方法。该领域还涉及博弈论在电子商务等领域的应用。
--
一级分类:Computer Science        计算机科学
二级分类:Computers and Society        计算机与社会
分类描述:Covers impact of computers on society, computer ethics, information technology and public policy, legal aspects of computing, computers and education. Roughly includes material in ACM Subject Classes K.0, K.2, K.3, K.4, K.5, and K.7.
涵盖计算机对社会的影响、计算机伦理、信息技术和公共政策、计算机的法律方面、计算机和教育。大致包括ACM学科类K.0、K.2、K.3、K.4、K.5和K.7中的材料。
--
一级分类:Economics        经济学
二级分类:General Economics        一般经济学
分类描述:General methodological, applied, and empirical contributions to economics.
对经济学的一般方法、应用和经验贡献。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--
一级分类:Statistics        统计学
二级分类:Computation        计算
分类描述:Algorithms, Simulation, Visualization
算法、模拟、可视化
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-15 22:35:35
计算数据分割BAXQuality数据是统计学和机器学习成功的一个基本贡献。如果统计评估或机器学习导致做出创造价值的决策,那么数据提供者可能希望分享该价值。本文介绍了评估单个数据样本和样本集价值的方法,以支持不同数据贡献者之间的价值。我们对单个样本使用Shapley值,对组合样本使用OwenValue,并且我们表明,这些值可以在多项式时间内进行计算,尽管它们的定义中的项数与样本数呈指数关系。ACM Economics&Computement 2019(EC’19)——海报展示。Eric Bax 21简介许多组织利用个人数据执行各种职能。在许多情况下,这涉及到分析多人汇总的数据,以做出导致产生利润或损失的决策。搜索、电子邮件和社交媒体提供商使用其用户的数据来选择广告来向其用户展示[16、23、3 7](通常是为了换取免费提供服务),这促使人们呼吁向用户支付数据视频费[5]——这是使用其数据生成的利润的一部分。本文详细介绍了计算数据红利的方法,可以是逐样本计算,也可以是收集构成决策数据集一部分的数据。本文提出的方法适用于向用户发布广告所得利润的数据红利,也适用于从数据生成利润的其他方式的数据红利。搜索、电子邮件和社交媒体提供商可以而且在某些情况下确实可以通过广告以外的方法从数据中产生利润。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-15 22:35:38
示例包括使用聚合的电子邮件数据,例如用于购买的电子邮件收据,作为股票市场中买卖决策的输入[32、35、36],或用于支持此类决策的市场研究[20、21]。同样,可以分析聚合的搜索和社交媒体数据,以做出有效的经济预测[1 4、18、27],这也可以支持买卖决策,从而产生利润或损失。其他类型的组织也从聚合数据中获益。保险公司使用聚合数据来设定费率,医疗机构使用它(通常规模较小)进行临床试验和预测疾病爆发(这一功能也可以从搜索、电子邮件和社交媒体数据中受益[4,19])。许多零售商使用客户关系管理(CRM)系统,根据对客户汇总的数据分析,自动确定向哪些客户提供哪些服务。在冰岛,个人的医学、遗传学和谱系学数据已经聚合起来,用于医疗产品的开发以及人类学的发现[1、15、17、30]。组织可能会争辩说,提供数据的个人或团体已经得到了同等的补偿,因为他们可以用数据交换服务。然而,用户越来越关注数据隐私,欧盟的GDPR[2]等法律变化、美国国会关于互联网公司如何使用用户数据的听证会,甚至苹果首席执行官蒂姆·库克(TimCook)对应用设备用户行为的评论都证明了这一点,有利于让用户更好地控制和了解其数据的使用方式[31]。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-15 22:35:41
随着用户对隐私问题的了解越来越多,他们开始认识到自己的数据驱动的价值,他们可能很快就会坚持要分享这些价值。本文中提出的计算数据红利的方法基于这样一种理念,即在做出推动利润的决策时,某些数据可能比其他数据更有价值。因此,该方法基于经济机制设计的概念【22,2 4–26】,旨在奖励联盟成员或子集团对其联盟贡献的价值。这些概念包括计算单个数据样本值的Shapley值[34],以及计算分配给每个多重样本提供者的收益或损失份额的Owen值[29]。第2节和第3节简要回顾了Shapley和Owen值以及关于排列的一些基本结果,我们将在后面的章节中使用这些结果进行除法。第4节描述了为依赖基于频率的分析的决策过程计算数据红利的方法,例如,根据过去类似情况下类似行动的平均结果来决定是否采取行动。第5节介绍了为使用最近邻模型进行分析的决策过程计算数据红利的方法,这些模型使用对样本的投票来决定要采取的行动。第6部分最后讨论了未来工作的潜在兴趣领域。2回顾:SHAPLEY值和OWEN值我们将使用SHAPLEY值[34]来评估单个数据示例的贡献,使用OWEN值[29]来评估示例集的贡献。因此,我们首先回顾这些价值观。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-15 22:35:44
Bothinvolve平均了许多项,这些项在参与者数量上是指数级的,但我们的方法将收集这些项,以便计算是可行的。想象一下,一组参与者将共同创造一些价值。我们应该如何对待他们每一个人?一个想法是按照他们同意加入的顺序给予他们奖励,并给他们加入所产生的边际价值。然而,这可能导致僵局。例如,如果我们对一个完成的拼图进行估价,但对一个部分完成的d拼图没有价值,那么我们只会奖励放置最后一块拼图的人。因此,没有人会有动机将前两块拼图拼在一起,或者在拼图上做任何工作,只剩下一块拼图。即使他们这样做了,每个人都会偷偷地藏起来,试图得到最后一块拼图。如果你曾经遇到过这种情况,那么你就会理解这个问题。为了避免这种类型的问题,Shapley的见解是,通过对参与者可能决定参与的所有可能顺序进行平均,得出参与者的价值。在每个排序中,如果参与者决定在排序中位于他们之前的参与者之后和排序中位于他们之后的参与者之前加入,我们将评估他们的边际贡献。在一起做拼图的情况下,每个拼图块在拼图块排列的相等数量中排在最后:对于n个拼图块,(n-1)!, 这不是n!排列。因此,每一块都有一个相等的Shapley值,即完成拼图的值除以块数。参与者i的Shapley值的一般方程为:Eσ∈P[v(Si(σ))∪ {i} ()- v(Si(σ))],(1),其中P是1的置换集。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-15 22:35:48
,n对于n个参与者,σ表示置换,Si(σ)是σ中i之前的项目集,v(S)是值,如果由S索引的参与者都参与,而其他参与者不参与。有时,一组组参与者组成联盟,每个联盟作为一个团队决定是否参与。欧文的价值观通过对联盟成员的排列进行平均,以及在参与者联盟内对联盟成员的排列进行平均,来应对这一挑战。这为每个参与者提供了一个值,而一个条件的值是其参与者的值之和。设m为联盟数,l等C,Cmbe联盟中的参与者指数集。那么联盟h中参与者i的Owenvalue是:EσC∈PCEσh∈酸碱度v∪j∈Sh(σC)Cj∪ Si(σh)∪ {i}- v∪j∈Sh(σC)Cj∪ Si(σh), (2) 其中Pc是1,…,的置换集,m;Sh(σC)是置换σC中h之前的项目集;Phis是Ch中参与者指数的一组排列,Si(σh)是σh中i之前的一组指标。继续拼图示例,如果每个帮助拼图的人首先将一组块连接到拼图的m个区域,然后将这些区域连接在一起,那么一块的欧文值就是期望值,区域的过度置换与该块区域内的piec es的置换配对,如果该块被添加到区域间置换中其区域之前的区域和区域内置换中其区域之前的块的组合中,则产生的边际价值。联盟的欧文价值是其参与者的欧文价值之和。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群