全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1078 22
2022-06-02
英文标题:
《Inverse Reinforcement Learning for Marketing》
---
作者:
Igor Halperin
---
最新提交年份:
2017
---
英文摘要:
  Learning customer preferences from an observed behaviour is an important topic in the marketing literature. Structural models typically model forward-looking customers or firms as utility-maximizing agents whose utility is estimated using methods of Stochastic Optimal Control. We suggest an alternative approach to study dynamic consumer demand, based on Inverse Reinforcement Learning (IRL). We develop a version of the Maximum Entropy IRL that leads to a highly tractable model formulation that amounts to low-dimensional convex optimization in the search for optimal model parameters. Using simulations of consumer demand, we show that observational noise for identical customers can be easily confused with an apparent consumer heterogeneity.
---
中文摘要:
从观察到的行为中了解客户偏好是营销文献中的一个重要主题。结构模型通常将前瞻性客户或公司建模为效用最大化代理,其效用是使用随机最优控制方法估计的。我们提出了一种基于反向强化学习(IRL)的动态消费者需求研究方法。我们开发了一个版本的最大熵IRL,该IRL导致了一个高度易处理的模型公式,该公式相当于在搜索最优模型参数时的低维凸优化。通过对消费者需求的模拟,我们发现相同客户的观测噪声很容易与明显的消费者异质性混淆。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Computer Science        计算机科学
二级分类:Artificial Intelligence        人工智能
分类描述:Covers all areas of AI except Vision, Robotics, Machine Learning, Multiagent Systems, and Computation and Language (Natural Language Processing), which have separate subject areas. In particular, includes Expert Systems, Theorem Proving (although this may overlap with Logic in Computer Science), Knowledge Representation, Planning, and Uncertainty in AI. Roughly includes material in ACM Subject Classes I.2.0, I.2.1, I.2.3, I.2.4, I.2.8, and I.2.11.
涵盖了人工智能的所有领域,除了视觉、机器人、机器学习、多智能体系统以及计算和语言(自然语言处理),这些领域有独立的学科领域。特别地,包括专家系统,定理证明(尽管这可能与计算机科学中的逻辑重叠),知识表示,规划,和人工智能中的不确定性。大致包括ACM学科类I.2.0、I.2.1、I.2.3、I.2.4、I.2.8和I.2.11中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Computational Engineering, Finance, and Science        计算工程、金融和科学
分类描述:Covers applications of computer science to the mathematical modeling of complex systems in the fields of science, engineering, and finance. Papers here are interdisciplinary and applications-oriented, focusing on techniques and tools that enable challenging computational simulations to be performed, for which the use of supercomputers or distributed computing platforms is often required. Includes material in ACM Subject Classes J.2, J.3, and J.4 (economics).
涵盖了计算机科学在科学、工程和金融领域复杂系统的数学建模中的应用。这里的论文是跨学科和面向应用的,集中在技术和工具,使挑战性的计算模拟能够执行,其中往往需要使用超级计算机或分布式计算平台。包括ACM学科课程J.2、J.3和J.4(经济学)中的材料。
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Computer Science        计算机科学
二级分类:Systems and Control        系统与控制
分类描述:cs.SY is an alias for eess.SY. This section includes theoretical and experimental research covering all facets of automatic control systems. The section is focused on methods of control system analysis and design using tools of modeling, simulation and optimization. Specific areas of research include nonlinear, distributed, adaptive, stochastic and robust control in addition to hybrid and discrete event systems. Application areas include automotive and aerospace control systems, network control, biological systems, multiagent and cooperative control, robotics, reinforcement learning, sensor networks, control of cyber-physical and energy-related systems, and control of computing systems.
cs.sy是eess.sy的别名。本部分包括理论和实验研究,涵盖了自动控制系统的各个方面。本节主要介绍利用建模、仿真和优化工具进行控制系统分析和设计的方法。具体研究领域包括非线性、分布式、自适应、随机和鲁棒控制,以及混合和离散事件系统。应用领域包括汽车和航空航天控制系统、网络控制、生物系统、多智能体和协作控制、机器人学、强化学习、传感器网络、信息物理和能源相关系统的控制以及计算系统的控制。
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-2 18:30:15
市场反向强化学习Gor HalperinNYU Tandon工程学院邮件:igor。halperin@nyu.eduDecember14,2017摘要:从观察到的行为中学习客户偏好是市场营销文献中的一个重要主题。结构模型通常将前瞻性客户或企业建模为效用最大化代理,其效用是使用随机最优控制方法估计的。我们提出了一种基于反向强化学习(IRL)的动态消费者需求研究方法。我们开发了一个版本的最大熵IRL,该IRL导致了一个高度易处理的模型公式,该公式在搜索最优模型参数时涉及低维凸优化。通过对消费者需求的模拟,我们发现相同客户的观察噪音很容易与明显的消费者异质性混淆。1简介了解客户的选择、需求和偏好,客户是消费者或企业,是营销文献中永恒的主题。特别是,结构化营销模型通过将消费者或企业建模为效用最大化的理性代理人来构建消费者或企业模型(参见例[1])。与“简化形式”(纯统计)模型不同,结构模型旨在从特定营销活动引起的影响中剖析真实的消费者选择和需求参考,从而促进新产品和供应商的推广,然后可以根据所学的消费者效用来评估其对消费者的吸引力。特别是在消费者需求研究领域,可以区分静态需求和动态需求。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-2 18:30:18
本文讨论了在动态、多周期环境中学习消费者需求函数的问题,在这种环境中,客户可以在预先确定的时间段(一周、一个月、一年等)内选择其最佳消费,既可以是战略性的,也可以是非战略性的。此类设置与营销不同的当前公用事业计划和服务相关,如云计算计划、互联网数据计划、公用事业计划(电力、天然气、电话)等。结构模型通过将前瞻性消费者建模为理性主体,在规划期内最大化其预期消费效用流,而不是其一步效用,来解决此类问题。结构模型通常为消费者效用指定一个模型,然后使用动态规划和随机最优控制的方法对该模型进行估计。这类模型通常计算量很大,因为它们常常涉及到贝尔曼最优方程的重复求解,这是结构模型在工业层面广泛部署的主要障碍之一。我们提出了一种基于反向强化学习(IRL)的动态多周期消费者需求效用学习方法。虽然IRL多年来被广泛应用于机器人领域【2】,但最近它也被应用于其他领域,尤其是研究人类行为,参见例【3】。然而,我们不知道有任何文献会专门针对营销问题应用反向强化学习。本文的主要贡献是最大熵IRLmethod(Ziebart 2008)的一个新版本,它为优化模型参数带来了一个非常容易处理的凸优化问题。我们的模型能够进行简单的模拟,从而可以使用它来研究消费者效用最优参数估计量的有限样本特性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-2 18:30:21
特别是,我们使用模拟来证明,由于有限的样本效应,具有相同需求效用的消费者很容易被误认为是异质消费者。1.1考虑到客户观察到的行为,相关的工作收入客户偏好是心理学、市场营销、统计决策、最优控制和人工智能(AI)社区的一个积极研究主题。根据不同的领域,它通常在营销和心理学文献中被称为客户选择问题,在统计决策文献中被称为偏好诱导问题,在人工智能文献中被称为逆向强化学习问题。在学习消费者动态需求的特定背景下,之前的研究主要遵循随机最优控制(SOC)方法。特别是,Xu等人最近的一篇论文【4】开发了一个基于结构化SOC的模型,该模型使用手机用户的日常消费观察数据预测其偏好。在逆强化学习方面,我们的框架植根于最大熵IRL(MaxEnt IRL)[5,6]方法。最大熵IRL的其他相关参考文献为参考文献。[7, 8, 9].1.2我们的方法概述与Xu等人[4]类似,此处提出的框架侧重于消费数据。虽然我们的方法可以应用于导言中概述的许多不同的业务设置(如云计划、数据计划、公用事业计划等),但我们遵循参考文献[4],并考虑移动电话用户的消费公用事业,以便于与其方法进行直接比较。我们的模型根据少量的自由参数(尤其包括用户价格敏感性)对用户效用(奖励)函数进行参数化,然后根据用户的数据消费历史估计这些参数。与Ref不同。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-2 18:30:26
[4] ,我们不遵循随机最优控制方法,而是依赖于人工智能和机器学习社区中为类似任务开发的IRL方法。更具体地说,我们基于流行的最大熵(MaxEnt)IRL方法的高度易处理版本开发了一个模型【5,6】。与参考文献[4]的模型相比,我们的方法具有许多重要的优势。首先,我们的模型估计要简单得多,相当于一个具有5个变量的凸优化问题,可以使用标准的Off-she shelf优化软件轻松处理。这使得我们的模型能够高效地进行数值实现。相比之下,Xu等人的模型依赖蒙特卡罗进行模型估计。其次,如果需要的话,通过添加额外的特性,我们的模型更易于推广。第三,我们模型的可跟踪性允许我们研究有限样本“观测噪声”对估计模型参数的影响。参考文献[4]没有解决这个问题,该文献根据对少数用户相对较短(9个月)历史的模型估计,提出了实质性用户的异质性。最后但并非最不重要的一点是,我们的方法经过适当修改后,通常可以应用于上述其他类似设置中的客户偏好学习。论文的其余部分组织如下。在第节中。2我们介绍我们的模型。昆虫3,我们展示了估计模型如何用于反事实模拟和营销策略设计。门派4给出了数值实验。2模型公式2.1用户效用函数考虑购买了单个服务计划的客户,其每月价格F、初始配额q和价格p将在违反计划上的每月配额后按消费单位支付。我们指定了客户时间t=0,1,…的单步效用(奖励)函数。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-2 18:30:29
T-1(其中T是付款期的长度,例如一个月),如下所示:r(at,qt,dt)=uat-βat+γatdt- ηp(at- qt)++κqtIat=0(1)≥ 0是第t天的每日消耗量,qt≥ 0是第t天开始时的剩余津贴,dt是计费周期结束前的剩余天数,我们对任何x使用短符号x+=max(x,0)。等式(1)中的第四项与付款p(在- qt)+每月报价用完后由客户制作。参数η给出了客户的价格敏感性,而参数u、β、γ指定了用户奖励对状态行动变量qt、dt、at的依赖性。最后一学期~ κqtIat=0给出在时间t=0时零消费时收到的奖励(这里Iat=0是一个指标函数,如果at=0,则等于1,否则为零)。模型校准相当于根据用户消费历史估计参数η、u、β、γ、κ。对于不允许违反配额q的计划,目前的形式主义仍然适用,将价格p设置为单位。注意,奖励(1)可以等效地写成如下(这里K=5):r(at,qt,dt)=Φ(at,qt,dt)=K-1Xk=0θkΦk(at,qt,dt)(2),其中θ=uhati,θ=-βhati,θ=γhatdti,θ=-ηph(at- qt)+i,θ=κhqtIat=0i(这里hXi代表X的经验平均值),以及以下一组基函数{Φk}k-使用1k=0:Φ(at,qt,dt)=at/hati,Φ(at,qt,dt)=at/hati,Φ(at,qt,dt)=atdt/hatdti,(3)Φ(at,qt,dt)=(at- qt)+/小时(at- qt)+iΦ(at,qt,dt)=qtIat=0/hqtIat=0等式(1)给出的用户奖励的定义与inRef提出的定义类似。[4] 但在四个方面与之不同。首先,我们添加了一个可能的双线性依赖关系,即奖励与每日消耗量和计划剩余天数的关系。其次,我们没有将参数β缩放为β=1,如参考文献所示。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群