全部版块 我的主页
论坛 金融投资论坛 六区 金融学(理论版) 量化投资
7091 0
2017-07-24

原文来自:MindGo量化社区-【机器学习】利用随机森林进行因子选择

http://quant.10jqka.com.cn/platform/html/article.html#id/87859500/q/mindgo_59547441_733

【导语】在多因子模型中,常见的因子有效性检验方法是使用IC(信息系数),IC的定义为IC=corr(f,R),实际上是因子本期预测的收益率和下一期真实收益率之间的相关系数,简便起见,可以将IC定义改为IC=corr(X,R)X为当期因子值,R的含义不变。本文从另一个角度来对因子进行选择工作,机器学习中的随机森林(分类器/回归器)算法,能够在模型被训练之后输出每个特征的重要程度,那么通过得到的feature_importance就可以判断属性的重要程度,它揭示了近期可能的影响股价变动的重要因素。


【研究过程】

1.首先我们定义当期日期和下期日期,比如在下面的研究代码中,我们定义当期日期为20161230日,下期日期为2017331日。

2.定义股票池为构成上证指数的所有股票。

3.获取当期日期的股票池中所有股票的财务数据,这里选取了包括:市盈率、市净率、市现率、市销率、总市值、总股本、净利润等十多个指标。

4.计算当期日期和下期日期间股票池中所有股票的涨跌幅。

5.对财务数据进行最大-最小值标准化,并根据涨跌幅为股票打上标签(+1代表上涨,-1代表下跌)。

6.初始化RF-Classifier分类器和RF-Regressor回归器将数据集划分为5个部分,构成5-折交叉验证,计算每一折上的正确率。

7.输出分类器和回归器中对每个属性的重要程度。

feature_importance.JPG

【结论】

1.无论是分类器还是回归器,市净率都是一个相对重要的指标

2.比较奇怪的是从结果来看固定资产和总资产这两项指标也起到了比较重要的作用

3.回归器和分类器得到的结果是有所不同的,这可能跟建模的目标有关,分类器的目标是识别涨跌,而回归器的目标是预测涨跌幅度。

4.从结果看,在2016年年底至2017年年初时,市值已经不再是一个关键的因子。

5.可以通过调整代码的日期来观察各个特征的重要程度随着时间变化的变化情况。

原文来自:MindGo量化社区-【机器学习】利用随机森林进行因子选择

http://quant.10jqka.com.cn/platform/html/article.html#id/87859500/q/mindgo_59547441_733
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群