背景:利用个股5min数据构造市场5min数据,从而对市场的收益率和换手率进行分析。如果要构造 日期A—日期B 的市场5min时间序列,则需要所有个股的样本区间也是 日期A—日期B,再根据权重之和组成市场数据。 问题:有一些个股数据在样本日期区间内的1,2天、1个月或2个月有停牌(non-existent values)或丢失(missing values)的情况,并且数据的缺失是连续的。比如说,一支个股缺少1天的数据,就会连续缺少48条记录(5分钟采集一次),如果停牌一个月的话,则连续缺少的数据会更多。但是总的来说,缺失的数据不超过总样本量的1%。
一些文献中提到对日数据、周数据缺失的处理方法主要是:(1) Hold the last value. 利用已有的最近的数据填充。(2) Make some prediction. 比如使用EM算法。
我想将收盘价用方法(1)(这样的话收益率ln(P_t)-ln(P_(t-1))也是0),换手率使用0%来填充(因为停牌期间没有交易),但是目前没有找到文献支持,并且考虑到数据是连续缺失的,尤其是对于停牌一两月的个股数据,不知会不会造成影响。
请问一下大家是如何处理的?可不可以分享一下经验?非常谢谢!!!