大家来讨论一下,SAS怎样才能读入就处理,这样能够处理无限大的数据

kaizhang

2010-10-13 17:51:34

我处理过80G的数据。我是用SAS软件把数据切割成小的CSV文件，然后利用SQL语言进程处理。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

一诺9257

2010-10-27 19:53:13

没有思考过！平时的数据SAS都行

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yangchiran

2010-10-28 10:31:18

你可以把这个数据文件拆成几分，并行执行处理
LIBNAME test oracle user=用户名 password=密码 path=数据库名;
%let f1 = 'd:\test\20101028.dat;
filename filec "(&f1)";
data testda ;

      infile filec recfm=f lrecl=2000 firstobs=1 obs=10000 ;
      input          @1    id                $10.
                        @11 name       $30.
                        @41 add          $40.
                                          ;
      run;
/* 第二个并行的SAS*、
LIBNAME test oracle user=用户名 password=密码 path=数据库名;
%let f1 = 'd:\test\20101028.dat;
filename filec  "(&f1)";
data testda ;

      infile filec recfm=f lrecl=2000 firstobs=10001obs=20000 ;
      input          @1    id                $10.
                        @11 name       $30.
                        @41 add          $40.
                                          ;
      run;

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

onlyshenlinbo

2010-11-9 21:59:08

sas很重要，还是新手，还需要前辈们指教

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

laga

2010-11-15 17:57:10

学习来了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

winddance

2010-12-1 10:10:46

用一下SAS sql语句就行了啊。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

numman

2010-12-5 14:05:42

marloneusa 发表于 2009-6-30 02:46
爱萌发表于 2009-6-30 00:06
abelus 发表于 2009-6-27 15:14
说说数据处理的要求吧，具体要得到啥结果之类的，越详细越好。

我处理过千万条记录级别的数据，SAS完全可以胜任。

想请教你怎么处理的,能不能发一个类似程序到我的wjw84221@yahoo.com.cn
以供研究之用,谢谢,
顺便把你的经验也写一下,
我谢谢您了
我也向学习学习。我们经常碰到GB以上的数据，化的时间很长才能处理机条简单的句子。如果是百万级的变量和千万计的纪录，那该如何是好。谢谢。我的地址是
marlone.zj@gmail.com
thanks.
同意abelus的说法

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sophiafinn

2010-12-23 15:18:03

我有大数据正头疼怎么导进来呢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

oloolo

2010-12-24 13:42:49

Some simple algorithms can be done so. For example, simple OLS regression, which relies on solving the normal equation is a typical case. Now suppose you have an extremely large table, say 10^15 recoreds and 500 variables, you can construct the matrix of X and Y corresponding to normal equation while you read in the data sequentially because the normal equation system ends up with only summation and summation of cross products. After passing all records through, you obtain enough information of sufficient statistics and what you need to do is simply to apply a sweep operator to the 502-by-502 normal equation matrix.

Of course, since the data is so huge that you will have to distribute it over thousands of computers and process the summation in parallel.

The so-called Stream Algorithm, originally designed for extremely long tables, also looks promising to solve your puzzles. Under this algorithm, you may not even need to read in all data in order to obtain a strongly consistent result. But it needs custom design per specific case exploiting special stochastic characteristics of the data and also depends what you want to do. There is no universal solution.

1# 爱萌

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

pwseason

2011-1-7 05:04:23

数据挖掘应该是sas高端了吧

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

木须0329

2011-1-17 21:51:03

刚入门，不太懂，帮顶了！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nosewjc

2011-2-19 22:14:27

不要把数据都读到内存里就好了，需要的时候读入，不需要的时候就释放掉空间。当然如果数据需要计算多次，那就需要改改算法，尽量只读一次来算

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

menmader

2011-3-19 13:11:15

我也很关注这种性能问题！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

275769263

2011-4-5 16:14:28

我还没处理过海量的数据..很多书上不是说hash只是把数据的地址映射到内存，再通过地址来访问数据...不知道这样是不是会快点..？求解...

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

hktk985211

2011-4-13 11:55:54

好问题！！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

天涯情结

2011-5-6 10:30:14

怎么我觉得很简单呀，读入数据太简单不过了，直接写入代码不就可以了，
libname aa 'e:\sasdata';
data aa.data;
file 'E:\sasdata\data.txt';
input name$ age gender$;
file print;
put name $ age gender$;
run;
是不是要这样的手动输入呢？
我觉得你们那些问题都可以用代码实现。
libname aa "e:\sasdata"
data aa.class
input name $ age gender$;
cards;
张涛 4 男
。
。
run;
proc print;
run;
如果从文件中读取，那也不用多说了，你们应该知道，我就不班门弄斧了!

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

天涯情结

2011-5-6 10:38:14

128# sophiafinn 大数据我知道怎么导入，找我就行了，你那是什么文件格式的？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

franklin_fuf

2011-5-6 19:35:23

赫赫, 偶的处理级别没这么HUGE,因此除有时报错外,SAS基本可以处理. 但要本质解决这个问题, 恐怕是IT或者算法的问题了.
本质上处理起来必须用内存缓冲技术,即要用到时分块地进入内存, 不用时存入临时文件. 那么接下来的问题就是如何处理分块矩阵拉,本质上任何算法都是矩阵运算,因此所有算法都要相应地为分块矩阵服务.比如原来简单的矩阵相乘, 如果分块计算,然后复原就困难点拉. 如果是特征值运算,那算法的复杂性就成倍上升.
其次是IT技术,比如多CPU处理, 分机协同处理. 偶不是很懂这些.
但本质仍然是算法. 比如稀疏矩阵就要用特殊算法才可行.
说得再理论点, 关键还是看你要解决的问题, 如果本身是NP问题, 估计再好的算法也无能为力了.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

huying539

2011-6-10 17:33:45

并行可以不？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

peter-hzw

2011-6-20 09:09:41

SAS本来就是分块读入的啦。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wmqy2004

2011-7-9 07:26:43

尽管这个问题并不是对所有人来说都很重要，但对于提高我们的编程技巧很有用处，顶!!!!!

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可道可名

2011-8-30 13:56:07

不懂，每个人都说了，说的那么多，怎么看啊？会的发言都不知道在哪里，能不能把有意义的发言清楚地、方便的展现给大家啊？我们一进来就可以看到，不用一页页的看

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

qoiqpwqr

2011-8-31 10:34:34

不太懂sas，先mark一下。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

cenydxy

2011-9-3 10:30:36

sas菜鸟来学习的

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yangyang716

2011-9-23 09:20:51

好问题，望赐教

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可道可名

2011-9-26 13:51:15

直接把ORACLE 的数据库连上 SAS
是可以的

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yangchiran

2011-9-26 15:13:57

我建议你读大数据两的文件可以用infile fnm truncover recfm=f lrecl=110 firstobs=2 OBS=第多少条;/*拆分读区文件
，最后一个写成infile fnm truncover recfm=f lrecl=110 obs=开始第多少条;/*一直到结束*/
，然后多了SAS脚本并行跑，生成同一个数据集，要么结合你的环境加入insertbuff=