比如想研究一只股票的月超额收益率的影响因素:宏观(国内,国外),微观(财务数据)我搜集了下数据大概有50+的因素。
因为财务数据频率最大也要每季度一次,而股价是每天变动的,虽然我这边研究的是月度的,但是这两者之间的数据频率还是不匹配,最后我将每个财务数据重复了3次,虽然这个做法很不好,但是我想不出别的办法了。
现在用我之间看了一篇国外的文章进行建模。
大概是这样:y = ax
y被解释变量,x是解释变量(50+个因素)
由于因素太多而且y是非正态的,所以先进行主成分分析,得出因子与y建立分位数回归。
国外这篇文章的特点是这个主成分分析和传统的不一样,具体一两句话说不太清楚,最后就是会得出在不同分位点下,会有不同个数的最佳成分个数。
我的问题是:
(1)我因素的选取有没有问题? 财务数据有没有必要?如果有必要的话,如何处理频率问题
(2)财务数据有必要的话,要怎么处理呢? 我看了一些硕士论文,基本都不写清楚。
(3)因为用股票对数收益率建模时很不理想,我后来用了股票超额收益率,结果好了很多,但是在进行平稳性检验时,股票对数收益率基本都平稳,而超额收益率却都不平稳,都是一阶单整。那我是直接继续还是要一阶差分后再继续?