请大家帮个忙，看看这个表怎么编？

3881

收藏 2009-08-25

Time	price	time_record	timedifference	lagtradetime_5second
27:00.8	51	41220	160
28:11.5	51	41291	71
28:28.4	51	41308	17
28:36.5	51	41316	8
28:40.9	51	41320	4	4
28:54.2	51	41334	14
28:56.4	51	41336	2	2
28:57.3	51	41337	1	1
29:02.8	51	41342	5	5
29:09.8	51	41349	7
29:19.8	51	41359	10
29:26.5	51	41366	7
29:41.1	51	41381	15
29:46.4	51	41386	5	5
29:56.2	51	41396	10
30:02.8	51	41402	6
30:04.9	51	41404	2	2
30:04.9	51	41404	0	0

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

tagv

2009-8-25 17:39:46

我实在无法熟悉 SAS的数据库算法！我现在想把这个表中的TIME RECORD 这一行中的随机出现的相邻的5秒钟的交易合并。

难题是：不能静态删除所有标记5秒以内的交易。因为删除任何一个纪录后，余下的间隔可能就已满足了大于5秒的要求。

似乎得用双循环，我今天一直沿lag函数和双循环的方向努力，但始终无法得到结果。因为在循环里。我发现LAG 函数赋值不正确。另外在循环中，当碰到一个小于5秒的纪录后，只能中断循环，却无法在循环内删除这条记录。痛苦！

我这几天使用SAS的初步感觉：

似乎 SAS 的编译技术很不同于思维直觉。编程者好像不能无束缚的写流水账式的程序。可是作为统计软件。我觉得这应该是个缺陷。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jingju11

2009-8-25 20:35:03

相邻的5秒钟的交易合并?
如何地合并呢？合并后的time, price, time_record 取什么值呢？均值？较大值?或者是第一个值？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sushe1527

2009-8-25 21:44:57

合并后的time, price, time_difference取第一个值
然后对time_record求和么？象下面图可以么？

刚才的数据区间刚好没有交叉也就说5秒区间的time变量首末之差不超过5
如果那数据改一下把29:02:8变成29:00:8 区间会有交叉了
也就是说符合条件的time变量挨着的每每两个不超过5秒，但是首末time差超过5秒了
是不是要象下面的处理？
28:36.5--28:40.9 第一行
28:54.2--28:57.3 第二行
28:56.4--29:00.3 第三行
28:57.3--29:00.8 第四行
30:02.8--30:04.9 第五行

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 06:20:50

微观交易结构现在有几个模型用来发现informed trading. 其中最简单的就是统计日交易的买卖盘的交易笔数。非常像我们看盘软件中的买一，买二。。。卖一，卖二。。。的统计。

这样统计是为了侦测是否有目的性的买卖盘，我现在着手先做一个最简单的试验性质的模型（最好能扩展），只对每日的每笔交易数据统计频率，然后用最大似然函数来考虑其一年或一个季度的平均情况，目前没有加入每笔交易大小，每笔交易间的时间差，以及每笔交易对报价的影响特点等等信息。

即使这个模型，在对每笔交易的统计时也会出现偏差，而且方向交易者会故意隐藏其交易目的。使这个模型的解释力下降。

具体这个问题，我需要把每一笔交易的后续5秒内的交易都去除，这样隐含的假设是认为他们其实是由一个目的人发起的。滤掉这个噪音。当然这个5秒是否准确是个统计研究方向。

合并后的time, price, time_record 只取这笔交易的数据。后续5秒内的数据都不要了。

可能的一个变化是把同一price的5秒内的数据合并。我还没有在算法上斟酌。

sushe1527 : 这个 TAQTIC里的ticker数据，是完全按时间排序的，会有错，但我目前还没有发现交叉现象，当然应该在程序里做分支保护是最上乘的。

time 和 TIME RECORD 是一个数据，后者是秒的绝对数。TIMEDIFFERENCE 是这个绝对数的差，而最后lagtradetime_5second是我挑出来需要考虑合并的数据。

这个数据，我认为，最佳的应该不要用区间算法来考虑，因为固定区间或按某个时间原点开始计算区间都会有偏，且算法不够灵活。

我自认为应该的方向（可能不成熟），是对所有数据至少做两次扫描。一个手工的过程：在当前纪录下，看下面N条记录，计算和这笔之间的时间差，小于等于5秒的删去后面的纪录（这里最好考虑price的判别，可以有两个算法，同价格的和不需要考虑价格的) 一旦大于5秒则进行下面的一条记录。如此处理所有记录。这个应该也是动态过程，因为一旦一条不符合的纪录删掉。则timedifference 和lagtradetime_5second 的计算值就发生变化。要重新考虑新的删去一条记录后的这些计算，再看是否在5秒以内。

谢谢两位！我知道两位都是高手。将软件，金融，和统计结合起来。一定是未来金融交易的方向。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 07:03:39

Time       price       time_record       Lagtradetime       lagtradetime_5second
28:54.2       51       41334       14
28:56.4       51       41336       2       2
28:57.3       51       41337       1       1
29:02.8       51       41342       5       5

像这个子集， 28：54,2的交易后面2秒内的数据要删掉。在看2秒后的那条记录，现在变成差3秒了，也要删掉。在往后那条差8秒了（是个向后累加timedifference的过程），这样就要保留29：02.8这条数据，然后再从这条再往后看。如果一旦发现新的不满足的数据。重复上面的过程。

我本来也是这样做的：
先在当前数据下，看timedifference是否前面数据为零，是则看，lag（lagtradetime_5second) 是否不为空？是，则累加至timedifference。再看是否小于等于5？是，则将其赋值给lagtradetime_5second 然后再次清零本条的timedifference, 如此会形成一个中间有零和大于5的timedifference的数据表，再一次清除所有有零的 timedifference 的记录。

但我无论怎样做，lag函数总是无法找到前一条数据。而跑到上一个小于5的纪录的紧随的一个非小于5的纪录上。非常奇怪！！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

坐看云起时

2009-8-26 07:51:41

试试，也许有用
data xxx;
      set yyy;
      /* create unique trade identifier;*/
      tid = _n_;
      /* advance trades by 5 secs to adjust for late reporting;*/
      time_real = time;
      time = time - 5;
      label time='trade time - 5 secs';
      label time_real = 'reported trade time';
      format time_real time8.;
      /* compute variable for tick test;*/
      lagprice  = lag(price);
      lag2price = lag2(price);
      if price > lagprice then tick =  1;
      if price < lagprice then tick = -1;
      if price = lagprice then do;
            if lagprice > lag2price then tick =  1;
            if lagprice < lag2price then tick = -1;
      end;
      if _n_ < 3 then tick=0;
      if tick = . then tick = 0;
      label tick    = 'trade indicator based on tick test';
      label tid    = 'trade identifier';
      label numtrades = 'number of aggregated trades';
      run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 08:05:32

这个是把交易数据往前提5秒的。也非常有用，但似乎还不能解决我的问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sushe1527

2009-8-26 10:45:24

你贴出一部分表，然后再贴出你想得到的表（可手算），那这样大家就知道你要做什么了

话说你那个判断一次，就删除一次的做法可能很不靠谱
最好判断完做某种标记最后统一删除

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 11:13:39

Time       price       time_record       timedifference    lagtradetime_5second
28:54.2       51       41334       14
28:56.4       51       41336       2       2
28:57.3       51       41337       1       1
29:02.8       51       41342       5       5
29:09.8       51       41349       7
29:19.8       51       41359       10
29:26.5       51       41366       7
29:41.1       51       41381       15





Time       price       time_record       timedifference       lagtradetime_5second
28:54.2       51       41334       14
28:56.4       51       41336       0       2
28:57.3       51       41337       0       1
29:02.8       51       41342       8       5
29:09.8       51       41349       7
29:19.8       51       41359       10
29:26.5       51       41366       7
29:41.1       51       41381       15

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 11:15:48

我那个想法确实有些问题；

data r1;
set r0;
if lagtradetime < = 5 then do;
lagtradetime_5second = lagtradetime;
lagtradetime = 0 ;
end;

run;

data r3;
set r1;

H=lag(lagtradetime);

if H = 0 then do;

k = lag (lagtradetime_5second);

d= lag(lagtradetime_5second);
c=lagtradetime + d;
lagtradetime =c;

put _n_= di= lagtradetime = time_record= k= lagtradetime_5second= d=;
end;

run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 11:17:56

我这个程序带了些诊断的程序。可能过于繁琐。

一团糟

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sushe1527

2009-8-26 11:30:35

你不是说结果有要求合并么？难道是合并时间的差值？
上面是最终结果么？是你思路下的某一步要求吧？
而且28:57.3 到29:02.8 是5.5秒超过5秒了吧？
是不是下面更靠谱？

Time       price       time_record       Lagtradetime       lagtradetime_5second
28:54.2       51       41334       14
28:56.4       51       41336       0       2
28:57.3       51       41337       3    1
29:02.8       51       41342    5       5
29:09.8       51       41349       7
29:19.8       51       41359       10
29:26.5       51       41366       7
29:41.1       51       41381       15

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 11:38:58

对。是中间一步。只要形成 0 0 8 这样的序列。再一个数据步一次删掉所有的0 的纪录就可以了。

而且28:57.3 到29:02.8 是5.5秒超过5秒了吧？

超过没关系的，8又不删掉。

关键是动态识别。在交易中，可能有时候10分钟没有交易。也可能5秒钟几十笔交易。

这个动态的图景才是关键。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 11:43:21

你不是说结果有要求合并么？难道是合并时间的差值？

我说的不严谨。
应该是把任何一个交易所有后续5秒的交易全部删掉

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 11:51:35

我现在非常想知道，我那段代码的真实计算过程。！我被sas搞晕了。我还有一段。更神！

Data r0;
Set sample.trade;
di =_n_;

if di > 1 then do;

k = lag1(time_record);
Lagtradetime = time_record -lag1(time_record);

If lagtradetime < = 5 then lagtradetime_5second = lagtradetime;
else lagtradetime_5second = 0;

put _n_= di= lagtradetime = time_record= k= lagtradetime_5second= ;

end;

If di = 1 then do;
k = time_record;
Lagtradetime = 0;
Lagtradetime_5second = 0 ;
put _n_= di= lagtradetime = time_record= k= lagtradetime_5second= ;
end;

Run;

data r1;
set r0;
H=lag(lagtradetime);
if H = 0 then do;
k = lag (lagtradetime_5second);

put _n_= di= lagtradetime = time_record= k= lagtradetime_5second= ;

lagtradetime + lag(lagtradetime_5second);
end;

if lagtradetime < = 5 then do;
lagtradetime_5second = lagtradetime;
lagtradetime = 0 ;
end;

run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 11:52:09

1367  Data r0;
1368  Set sample.trade;
1369  di =_n_;
1370
1371
1372  if di > 1 then do;
1373
1374  k = lag1(time_record);
1375  Lagtradetime = time_record -lag1(time_record);
1376
1377  If lagtradetime < = 5 then lagtradetime_5second = lagtradetime;
1378  else  lagtradetime_5second = 0;
1379
1380  put _n_= di= lagtradetime = time_record= k= lagtradetime_5second= ;
1381
1382
1383
1384  end;
1385
1386  If di = 1 then do;
1387  k = time_record;
1388  Lagtradetime = 0;
1389  Lagtradetime_5second = 0 ;
1390  put _n_= di= lagtradetime = time_record= k= lagtradetime_5second= ;
1391  end;
1392
1393  Run;

_N_=1 di=1 Lagtradetime=0 time_record=35745 k=35745 lagtradetime_5second=0
_N_=2 di=2 Lagtradetime=. time_record=36048 k=. lagtradetime_5second=.
_N_=3 di=3 Lagtradetime=23 time_record=36071 k=36048 lagtradetime_5second=0
_N_=4 di=4 Lagtradetime=121 time_record=36192 k=36071 lagtradetime_5second=0
_N_=5 di=5 Lagtradetime=207 time_record=36399 k=36192 lagtradetime_5second=0
_N_=6 di=6 Lagtradetime=28 time_record=36427 k=36399 lagtradetime_5second=0
_N_=7 di=7 Lagtradetime=429 time_record=36856 k=36427 lagtradetime_5second=0

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 11:53:08

那个k, 怎么变成缺失值了？ _n_=2

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 11:54:18

这个lag函数的运行机理是咋样的啊！晕死！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sushe1527

2009-8-26 11:54:49

应该是把任何一个交易所有后续5秒的交易全部删掉
-----------------
非得变成0么？ if timedifferece<5 then delete 不就好了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 11:57:01

time_record       di       k       Lagtradetime       lagtradetime_5second
35745       1       35745       0       0
36048       2                            .    .
36071       3       36048       23       0
36192       4       36071       121       0
36399       5       36192       207       0
36427       6       36399       28       0
36856       7       36427       429       0
36928       8       36856       72       0
36945       9       36928       17       0
36945       10       36945       0       0
36970       11       36945       25       0
37119       12       36970       149       0

这是R0的数据

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 12:53:30

是不是缺retain的结果？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sushe1527

2009-8-26 14:15:04

tagv 发表于 2009-8-26 11:13
Time       price       time_record       timedifference    lagtradetime_5second
28:54.2       51       41334       14
28:56.4       51       41336       2       2
28:57.3       51       41337       1       1
29:02.8       51       41342       5       5
29:09.8       51       41349       7
29:19.8       51       41359       10
29:26.5       51       41366       7
29:41.1       51       41381       15





Time       price       time_record       timedifference       lagtradetime_5second
28:54.2       51       41334       14
28:56.4       51       41336       0       2
28:57.3       51       41337       0       1
29:02.8       51       41342       5       5
29:09.8       51       41349       7
29:19.8       51       41359       10
29:26.5       51       41366       7
29:41.1       51       41381       15

------------------------------------------------------------------------------------------
是不是象这样保留数据呢？

data a;
length time $8.;
input Time $ price ticord timedi@@;
cards;
28:54.2       51       41334       14
28:56.4       51       41336       2
28:57.3       51       41337       1
29:02.8       51       41342       5
29:09.8       51       41349       7
29:19.8       51       41359       10
29:26.5       51       41366       7
29:41.1       51       41381       15
;run;

data final;
set b;
m=dif(ticord);
if m>5 or m=. then output;
run;

只要对 z 做一次差分，保留所有大于 5 的数据就可以啦

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 14:48:54

不用那么麻烦算z的
我都算好了！最后一列就是阿不要1/10秒那个部分。

如果也是简单保留大于5的，这个题就没解出来啊！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 14:52:24

你那样算完，会把我上面标红的 8 删掉。而这是这个问题的核心阿

算法直接饮用后面两列吧
关键是动态的把任何一个交易后面在五秒以内的交易删掉。你的算法和我一样，无法识别并留下 8。

还是很感激！我一直在线等,,,,

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 14:55:31

我说的 8 就是 2 +1 +5 使得原来间隔 5秒的那个数据，在删去前两个交易后，满足和28：54.2那笔交易大于5的要求，也就是8了。这就是所谓的动态的原因。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 14:57:44

那个time 和price 是不需要的。我觉得提供的样本好像误导了。

可以从time_record 那个序列作算法就好！前边不用管

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 15:00:53

需要更大的数据样本，通知我，在线交流一下

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sushe1527

2009-8-26 15:29:09

试试这个

data a;
length time $8.;
input Time $ price ticord timedi@@;
cards;
28:54.2       51       41334       14
28:56.4       51       41336       2
28:57.3       51       41337       1
29:02.8       51       41342       5
29:09.8       51       41349       7
29:19.8       51       41359       10
29:26.5       51       41366       7
29:41.1       51       41381       15
;run;
data b;
set a;
m=dif(ticord);
if m>5 or m=. then m=0;
run;
data final;
set b;
retain s 0;
if m^=0 then s+m;
if m=0 then s=0;
timedi_new=max(timedi,s);
if timedi_new>5 then output;
run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

tagv

2009-8-26 15:49:20

高手！
不服不行。

我回北京一定请你王府井烤鸭

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群