微观交易结构现在有几个模型 用来发现informed trading. 其中最简单的就是统计日交易的买卖盘的交易笔数。非常像我们看盘软件中的买一, 买二 。。。卖一, 卖二。。。的统计。
这样统计是为了侦测是否有目的性的买卖盘,我现在着手先做一个最简单的试验性质的模型(最好能扩展),只对每日的每笔交易数据统计频率,然后用最大似然函数来考虑其一年或一个季度的平均情况,目前没有加入每笔交易大小,每笔交易间的时间差,以及每笔交易对报价的影响特点等等信息。
即使这个模型,在对每笔交易的统计时也会出现偏差,而且方向交易者会故意隐藏其交易目的。使这个模型的解释力下降。
具体这个问题,我需要把每一笔交易的后续5秒内的交易都去除,这样隐含的假设是认为他们其实是由一个目的人发起的。滤掉这个噪音。当然这个5秒是否准确是个统计研究方向。
合并后的time, price, time_record 只取这笔交易的数据。后续5秒内的数据都不要了。
可能的一个变化是把同一price的5秒内的数据合并。我还没有在算法上斟酌。
sushe1527 : 这个 TAQTIC里的ticker数据,是完全按时间排序的,会有错,但我目前还没有发现交叉现象,当然应该在程序里做分支保护是最上乘的。
time 和 TIME RECORD 是一个数据,后者是秒的绝对数。TIMEDIFFERENCE 是这个绝对数的差,而最后lagtradetime_5second是我挑出来 需要考虑合并的数据。
这个数据,我认为,最佳的应该不要用区间算法来考虑,因为固定区间或按某个时间原点开始计算区间都会有偏,且算法不够灵活。
我自认为应该的方向(可能不成熟),是对所有数据至少做两次扫描。一个手工的过程:在当前纪录下,看下面N条记录,计算和这笔之间的时间差,小于等于5秒的删去
后面的纪录(这里最好考虑price的判别,可以有两个算法,同价格的 和不需要考虑价格的) 一旦大于5秒则进行下面的一条记录。如此处理所有记录。这个应该也是动态过程,因为一旦一条不符合的纪录删掉。则timedifference 和lagtradetime_5second 的计算值就发生变化。要重新考虑新的删去一条记录后的这些计算,再看是否在5秒以内。
谢谢两位!我知道两位都是高手。将软件,金融,和统计结合起来。一定是未来金融交易的方向。
