Table表过大，怎么处理？

3951

收藏 2011-06-17

很简单的程序。我有一个800万观测值的数据集，其中有这样两个变量，姑且命名为a和b
每个观测值，a可以是a1，a2，a3等等，我大概看了一下，应该有100万+可能的a值。
对于b，也一样可能是b1，b2，b3等等，我无法知道有多少可能性，但是估计应该比a多。
我想计算一下以a*b分类的变量各有多少？

也就是说，如果n个观测值，都属于a1，也都属于b2，那么他们就是一类。计数是n
同属于a1，但是有的是b3，有的是b7，就不是一类。
我本意就像生成一个表如下：
a b count
a1 b1 5
a1 b2 7
...
a2 b1 13
...

程序非常简单：
proc freq data=test;
table a*b / out=result nopercent noprint;
run;

结果sas告诉我table表太大没法处理。
请高手指点下，这种情况下怎么办？
我以为，sas既然是用硬盘储存和处理数据，那么只要硬盘空间够大，应该不成问题吧？
或者我要使用数据库？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

Isscaliu

2011-6-17 03:56:32

post your SAS log!

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wingate99

2011-6-17 07:33:35

帮顶一下！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

soporaeternus

2011-6-17 08:32:07

proc sql;create table......

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

Bridgenc

2011-6-17 10:27:49

try something like this:

data new;
  set original_data;
  format key $30.;
  key=a||"-"||b;
run;

proc freq data=new;
  table key/out=results nocum norow nocol;
run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

bobguy

2011-6-17 10:51:02

bayes 发表于 2011-6-17 02:55
很简单的程序。我有一个800万观测值的数据集，其中有这样两个变量，姑且命名为a和b
每个观测值，a可以是a1，a2，a3等等，我大概看了一下，应该有100万+可能的a值。
对于b，也一样可能是b1，b2，b3等等，我无法知道有多少可能性，但是估计应该比a多。
我想计算一下以a*b分类的变量各有多少？

也就是说，如果n个观测值，都属于a1，也都属于b2，那么他们就是一类。计数是n
同属于a1，但是有的是b3，有的是b7，就不是一类。
我本意就像生成一个表如下：
a b count
a1 b1 5
a1 b2 7
...
a2 b1 13
...

程序非常简单：
proc freq data=test;
table a*b / out=result nopercent noprint;
run;

结果sas告诉我table表太大没法处理。
请高手指点下，这种情况下怎么办？
我以为，sas既然是用硬盘储存和处理数据，那么只要硬盘空间够大，应该不成问题吧？
或者我要使用数据库？

It should not be a problem. See the log of simulated problem below.

29 options FULLSTIMER;
30
31 data t1;
32 do i=1 to 8e6;
33 a=ceil(ranuni(123)*1e3);
34 b=ceil(ranuni(123)*1e3);
35 output;
36 end;
37 drop i;
38 run;
NOTE: The data set WORK.T1 has 8000000 observations and 2 variables.
NOTE: DATA statement used (Total process time):
real time 1.70 seconds
user cpu time 1.21 seconds
system cpu time 0.29 seconds
Memory 180k
OS Memory 7280k
Timestamp 6/16/2011 10:46:24 PM
　
39
40 proc freq data=t1 noprint;
41 table a*b/out=t2;
42 run;
NOTE: There were 8000000 observations read from the data set WORK.T1.
NOTE: The data set WORK.T2 has 999651 observations and 4 variables.
NOTE: PROCEDURE FREQ used (Total process time):
real time 13.07 seconds
user cpu time 12.71 seconds
system cpu time 0.31 seconds
Memory 34661k
OS Memory 44144k
Timestamp 6/16/2011 10:46:37 PM

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

bayes

2011-6-17 11:42:26

6# bobguy
问题的关键，可能不在于800万的观测值，而在于a和b的种类太多。
我看了你的程序，以下两句：
a=ceil(ranuni(123)*1e3);
b=ceil(ranuni(123)*1e3);
实际上，给予a和b的种类只有各1000，而我的实际数据是各100万+，所以才会出现你可以模拟，而我这个却太大不能处理的情况。
不知道把上面两句改成以下两句：
a=ceil(ranuni(123)*1e6);
b=ceil(ranuni(123)*1e6);
之后，看看还能模拟不。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

soporaeternus

2011-6-17 11:57:47

楼上
sql统计行的吧......

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

bayes

2011-6-17 13:54:58

8# soporaeternus 我还没试，不过按道理，用数据库肯定是可以的。
不过我手上的活，明天赶着交，实在是没时间去学习sql的一些东西了。
有时间还是的学习下。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

bayes

2011-6-17 13:59:21

5# Bridgenc 这个地方的key=a||"-"||b是拼接字符串。
然后用a-b这个新的字符串作为唯一的分类符。
这个想法太巧妙了。
这样的话，这个新变量的种类，无论如何不会超过观测值，就避免了a×b太大的问题。
非常感谢。

我又想了一下，可能这种解决方案和适合我这种需求，对于概率没有任何计算要求，单纯只是数一下个数。
如果要求行和列的概率和，或者需要各行或各列的累积概率，还得用table表，那样可能只能动用数据库了。

测试的结果，还是不成功，这次报错是memory不足了。可能因为我的a和b都是字符串，而且其中一个的长度还比较长的原因吧。
我看了一下option，memsize大约是4g，已经设为最大了。
但是我自己的机器，是4g的内存，外加虚拟内存，应该可以设得比这个大啊，不知道为啥。
我看别人的，貌似可以把memsize设的比内存大很多，需要时甚至可以设定为5倍内存，当然硬盘得足够大，就是不知道他们怎么做到的。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

soporaeternus

2011-6-17 14:12:50

proc sort可以的话，sort一下 data步也可以啊

这个是不是proc freq自己的问题

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

soporaeternus

2011-6-17 14:21:59

看了下SAS help的Freq 的Computational Resources
如果执意要用freq的话
可以把a和b字段代码化，就是对应到自增序列
这样可以减少freq时的内存消耗......

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

bayes

2011-6-17 22:50:18

12# soporaeternus 这个应该就是5楼所说的方法吧，合并a和b，形成一个新的key
我也按key先sort过，成为自增序列。
但是freq还是说memory不够。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

bobguy

2011-6-18 11:44:22

bayes 发表于 2011-6-17 11:42
6# bobguy
问题的关键，可能不在于800万的观测值，而在于a和b的种类太多。
我看了你的程序，以下两句：
a=ceil(ranuni(123)*1e3);
b=ceil(ranuni(123)*1e3);
实际上，给予a和b的种类只有各1000，而我的实际数据是各100万+，所以才会出现你可以模拟，而我这个却太大不能处理的情况。
不知道把上面两句改成以下两句：
a=ceil(ranuni(123)*1e6);
b=ceil(ranuni(123)*1e6);
之后，看看还能模拟不。

The same result can be achieved by using data step + sort. BTW if a and b have 1m possible values each, then combined one is very possible to be unique provided that total obs is 8m.

170 options FULLSTIMER;
171
172 data t1;
173 do i=1 to 8e6;
174 a=ceil(ranuni(123)*1e6);
175 b=ceil(ranuni(123)*1e6);
176 output;
177 end;
178 drop i;
179 run;
NOTE: The data set WORK.T1 has 8000000 observations and 2 variables.
NOTE: DATA statement used (Total process time):
real time 1.43 seconds
user cpu time 1.24 seconds
system cpu time 0.18 seconds
Memory 180k
OS Memory 6520k
Timestamp 6/17/2011 11:38:10 PM
　
180
181 proc sort data=t1 out=t2 nodupkey;
182 by a b;
183 run;
NOTE: There were 8000000 observations read from the data set WORK.T1.
NOTE: 0 observations with duplicate key values were deleted.
NOTE: The data set WORK.T2 has 8000000 observations and 2 variables.
NOTE: PROCEDURE SORT used (Total process time):
real time 4.21 seconds
user cpu time 6.83 seconds
system cpu time 0.67 seconds
Memory 66535k
OS Memory 71996k
Timestamp 6/17/2011 11:38:14 PM
　
184
185 data t3;
186 set t2;
187 by a b;
188 if first.b then cnt=0;
189 cnt+1;
190 if last.b then output;
191 run;
NOTE: There were 8000000 observations read from the data set WORK.T2.
NOTE: The data set WORK.T3 has 8000000 observations and 3 variables.
NOTE: DATA statement used (Total process time):
real time 1.90 seconds
user cpu time 1.35 seconds
system cpu time 0.53 seconds
Memory 215k
OS Memory 6520k
Timestamp 6/17/2011 11:40:07 PM

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群