全部版块 我的主页
论坛 经济学人 二区 外文文献专区
811 10
2022-06-24
英文标题:
《Taxable Stock Trading with Deep Reinforcement Learning》
---
作者:
Shan Huang
---
最新提交年份:
2019
---
英文摘要:
  In this paper, we propose stock trading based on the average tax basis. Recall that when selling stocks, capital gain should be taxed while capital loss can earn certain tax rebate. We learn the optimal trading strategies with and without considering taxes by reinforcement learning. The result shows that tax ignorance could induce more than 62% loss on the average portfolio returns, implying that taxes should be embedded in the environment of continuous stock trading on AI platforms.
---
中文摘要:
本文提出了基于平均税基的股票交易。回想一下,当出售股票时,资本收益应纳税,而资本损失可以获得一定的退税。通过强化学习,我们学习了考虑税收和不考虑税收的最优交易策略。结果表明,税收忽视会导致平均投资组合收益损失62%以上,这意味着税收应该嵌入到人工智能平台的股票连续交易环境中。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Trading and Market Microstructure        交易与市场微观结构
分类描述:Market microstructure, liquidity, exchange and auction design, automated trading, agent-based modeling and market-making
市场微观结构,流动性,交易和拍卖设计,自动化交易,基于代理的建模和做市
--
一级分类:Quantitative Finance        数量金融学
二级分类:Mathematical Finance        数学金融学
分类描述:Mathematical and analytical methods of finance, including stochastic, probabilistic and functional analysis, algebraic, geometric and other methods
金融的数学和分析方法,包括随机、概率和泛函分析、代数、几何和其他方法
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-24 12:10:53
新加坡黄山国立大学深层强化学习应税股票交易,a0120756@u.nus.eduAbstractIn本文提出了基于平均税基的股票交易。回想一下,当出售股票时,资本收益应该纳税,而资本损失可以获得一定的退税。通过强化学习,我们学习了考虑税收和不考虑税收的最优交易策略。结果表明,税收忽视可能会导致平均投资组合回报率损失62%以上,这意味着税收应该嵌入到在AIPlatform上进行连续股票交易的环境中。1背景随时间变化的随机控制是金融交易、投资组合选择和资产配置中最重要的主题之一。在随机控制中,agent基于观测状态变量以最优方式做出决策(动作),以使其目标函数最大化。近年来,深度强化学习在训练自学习AI代理方面得到了很多成功的应用。例如,杂交DRL系统AlphaGo在Go中击败了一位人类世界冠军(David Silver,2016)。DRL算法已经应用于广泛的问题,如机器人技术(Sergey Levine&Abbeel,2016;Yan Duan&Abbeel,2016)和视频游戏(Volodymyr Mnih,2015)。此外,针对神经网络函数逼近器的强化学习提出了几种不同的方法(Volodymyr Mnih,2015;John Schulman&region policy optimization,2015;John Schulman&Abbeel,2016;John Schulman&Klimov,2017),通过强化学习交易股票可以指导和帮助代理人提高其投资组合回报。尽管在买卖股票时考虑了交易成本,但这些结果参见https://github.com/hackthemarket/gym-tradingare由于从未考虑征税,因此仍有疑问。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 12:10:56
支付税收应该是股票交易的主要关注点之一,因为税收比交易成本高得多。请注意,强化学习是基于马尔可夫决策过程(MDP)开发的,而精确的分类计算不是马尔可夫的,因此不能直接用于强化学习。美国股票市场的投资者在实现收益或亏损时,须缴纳资本增值税。实现收益后,如果持股期限至少为一年,则适用较低的长期税率αL=15%;如果持股期限少于一年,则适用较高的短期税率αS=25%。相反,当亏损实现时,投资者可以获得短期税率的退税,而不管持有期的长短。退税是指亏损可以从收益中扣除,只对剩余收益征税。我们使用平均基数和平均持有时间系统来简化路径相关的税收计算,而不影响主要的定量结果。由于当前步骤的平均基数和平均持有期仅使用最后一个时间步骤上的状态变量进行更新,因此平均基数技术可以使税收计算成为马尔可夫的。averagetax基础是投资者可以用来计算其股票持有成本、共同基金持有成本和其他应税金融产品成本的众多方法之一。众所周知,澳大利亚是采用平均计税制的国家。为了理解平均基数和平均持有期方案,我们给出了如下示例。假设投资者两年前以每股200美元的价格购买了300股股票,半年前又以每股300美元的价格购买了100股股票。现在,他以每股350美元的价格出售了总共400股股票。总成本基数为200×300美元+300×100美元=90000美元,平均基数为90000美元/(300+100)=225美元/人。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 12:10:59
基本加权总持有时间为200×300×2+300×100×0.5=135000(美元年),平均持有期为135000/90000=1.5年。这样,出售后的总资本收益等于(350×400美元- $225 × 400) = $50, 000. 由于平均持有期在一年以上,资本收益应按长期利率计税,因此所征收的税款等于50000美元×15%=7500美元。与税收相比,每笔交易的交易成本仅为0.1%左右~ 0.5%.因此,涉及的最大交易成本等于(200×300×0.005美元+300×100×0.005美元+350×400×0.005美元)=1150美元,远低于征收的税款。这个例子说明了在股票交易中税收对价的必要性。Min Dai&Fei(2015)提出了一个连续的随机动力学模型。2模型将股票价格st、平均基差bt和平均持有时间hta作为状态变量,股票交易问题成为一个MDP问题,我们可以用强化学习编程anAI agent。强化学习的策略梯度方法是通过计算策略梯度的估计量并将其插入随机梯度上升算法:g=EhTXt=0Atθlogπθ(at | st,bt,ht)i,(1)其中,atis是在~πθ(at | st,bt,ht)和Atis是时间步t上优势函数的估计量,优势函数π(s,b,h,a)=Qπ(s,b,h,a)- Vπ(s,b,h),其中qπ(s,b,h,a)=Eπh∞Xl=0γlrt+l | st=s,bt=b,ht=h,at=aiandVπ(s,b,h)=Eπh∞Xl=0γlrt+l | st=s,bt=b,ht=HI,γ为折现系数,RTT为时间步长的奖励。请注意,advantage函数衡量操作是否比策略的defaultbehavior更好或更差。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 12:11:02
Atand的乘法θlogπθ意味着政策梯度方向上的一步应该增加优于平均水平的行动的概率,并降低低于平均水平的行动的概率。我们在Schulman等人(2017)中选择了Proximal policy optimization algorithms(PPO),其性能优于其他在线policygradient方法,并且总体上在样本复杂性、简单性和墙时间之间取得了良好的平衡。我们可以证明状态过程(st,bt,ht)是马尔可夫满足的st,bt,ht≥ 回顾税收的平均基数b和平均持有期h的定义。b和h的演变取决于动作a和观察到的股价s。如果我们用时间步t的持股份额表示,那么下一个时间步的平均基数是Bt+1=st+1atat+1≤ 0,btat+st+1(at+1- at)at+1at+1<at<0,btat+st+1(at+1- at)+max(at,at+1),否则,(2)其中st+1和at+1分别是t+1时间段的股票价格和股票头寸。平均基础的更新取决于at、0和at+1之间的关系。当股票持仓量超过0时,将放弃所有historybasis记录。例如,如果atat+1≤ 0,股票仓位从短变长,或从长变短,自所有历史交易完成后,平均基数设为st+1。当at+1<at<0时,代理人决定继续做空股票,以便做空的平均基础是总成本基础btat+st+1(at+1- at)(负值)除以+1(负值)处的当前位置。在其他情况下,股票购买可以通过改变总成本基础和股票持有量来改变平均基础,而股票出售不会改变平均基础,因为股票出售会按比例减少总成本基础和股票头寸。这给出了(2)中的最后一个等式。我们已经将卖空纳入了我们的平均基准体系。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 12:11:05
在金融领域,卖空是指出售卖方借入的证券。做空股票时,投资者借入股票并立即出售。为了完成交易,投资者通过购买股票持有人并将证券交回贷款人来弥补头寸。当购买价格低于借款时的销售价格时产生资本损失,当购买价格高于初始销售价格时产生损失。损益在交易结束时计算。同样,我们可以得到下一个时间步长ht+1的平均持有期=0 atat+1≤ 0,btat(ht+dt)bt+1at+1at+1<at<0,否则btat(ht+dt)bt+1max(at,at+1)。(3) 给定平均基数和平均持有期,我们现在计算时间步t+1的税收成本。我们首先假设st+1≥ bt.当出售股票或购买股票以减少之前的空头敞口时,资本收益实现。因此,时间步t+1的资本利得税等于(st+1- bt)h(at- a+t+1)1{at≥at+1,at≥0}- (at+a-t+1)1{at≤at+1,at≤0}iαS{ht<252}+αL{ht≥252},其中,1{}是指示符函数。如果平均持有期超过一年(252个交易日),则资本收益按长期利率计算;如果平均持有期短于一年,则按短期利率计算。现在,我们解释上面括号中的公式。当投资者以st+1的价格出售自有股票时,这意味着≥ 在+1处≥ 0、则总资本收益相等(st+1- bt)(at- 在+1)。当投资者抛售所有股票,然后继续做空股票时,即≥ 0>在+1时,资本收益仅来自washsell且等于(st+1- bt)在。将这两种情况结合起来,可以得出上述括号中的第一个公式。或者,在购买股票以减少之前的短期风险敞口时,可以实现资本收益。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群