全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
2010-10-13 17:51:34
我处理过80G的数据。我是用SAS软件把数据切割成小的CSV文件,然后利用SQL语言进程处理。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-10-27 19:53:13
没有思考过!平时的数据SAS都行
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-10-28 10:31:18
你可以把这个数据文件拆成几分,并行执行处理
LIBNAME test oracle user=用户名 password=密码 path=数据库名;
%let f1 = 'd:\test\20101028.dat;
filename filec "(&f1)";
data testda ;
  
        infile filec recfm=f lrecl=2000 firstobs=1 obs=10000 ;
        input           @1     id                 $10.
                          @11   name          $30.
                          @41    add             $40.
                                              ;
        run;
/* 第二个并行的SAS*、
LIBNAME test oracle user=用户名 password=密码 path=数据库名;
%let f1 = 'd:\test\20101028.dat;
filename filec  "(&f1)";
data testda ;
  
        infile filec recfm=f lrecl=2000 firstobs=10001obs=20000 ;
        input           @1     id                 $10.
                          @11   name          $30.
                          @41    add             $40.
                                              ;
        run;
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-11-9 21:59:08
sas很重要,还是新手,还需要前辈们指教
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-11-15 17:57:10
学习来了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-12-1 10:10:46
用一下SAS sql语句就行了啊。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-12-5 14:05:42
marloneusa 发表于 2009-6-30 02:46
爱萌 发表于 2009-6-30 00:06
abelus 发表于 2009-6-27 15:14
说说数据处理的要求吧,具体要得到啥结果之类的,越详细越好。

我处理过千万条记录级别的数据,SAS完全可以胜任。

想请教你怎么处理的,能不能发一个类似程序到我的wjw84221@yahoo.com.cn
以供研究之用,谢谢,
顺便把你的经验也写一下,
我谢谢您了
我也向学习学习。我们经常碰到GB以上的数据,化的时间很长才能处理机条简单的句子。如果是百万级的变量和千万计的纪录,那该如何是好。谢谢。我的地址是
marlone.zj@gmail.com
thanks.
同意abelus的说法
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-12-23 15:18:03
我有大数据 正头疼怎么导进来呢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-12-24 13:42:49
Some simple algorithms can be done so. For example, simple OLS regression, which relies on solving the normal equation is a typical case. Now suppose you have an extremely large table, say 10^15 recoreds and 500 variables, you can construct the matrix of X and Y corresponding to normal equation while you read in the data sequentially because the normal equation system ends up with only summation and summation of cross products. After passing all records through, you obtain enough information of sufficient statistics and what you need to do is simply to apply a sweep operator to the 502-by-502 normal equation matrix.

Of course, since the data is so huge that you will have to distribute it over thousands of computers and process the summation in parallel.

The so-called Stream Algorithm, originally designed for extremely long tables, also looks promising to solve your puzzles. Under this algorithm, you may not even need to read in all data in order to obtain a strongly consistent result. But it needs custom design per specific case exploiting special stochastic characteristics of the data and also depends what you want to do. There is no universal solution.


1# 爱萌
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-1-7 05:04:23
数据挖掘应该是sas高端了吧
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-1-17 21:51:03
刚入门,不太懂,帮顶了!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-2-19 22:14:27
不要把数据都读到内存里就好了,需要的时候读入,不需要的时候就释放掉空间。当然如果数据需要计算多次,那就需要改改算法,尽量只读一次来算
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-3-19 13:11:15
我也很关注这种性能问题!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-4-5 16:14:28
我还没处理过海量的数据..很多书上不是说hash只是把数据的地址映射到内存,再通过地址来访问数据...不知道这样是不是会快点..?求解...
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-4-13 11:55:54
好问题!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-5-6 10:30:14
怎么我觉得很简单呀,读入数据太简单不过了,直接写入代码不就可以了,
libname aa 'e:\sasdata';
data aa.data;
file 'E:\sasdata\data.txt';
input name$ age gender$;
file print;
put name $ age gender$;
run;
是不是要这样的手动输入呢?
我觉得你们那些问题都可以用代码实现。
libname aa "e:\sasdata"
data aa.class
input name $ age gender$;
cards;
张涛 4 男
   。
   。
run;
proc print;
run;
如果从文件中读取,那也不用多说了,你们应该知道,我就不班门弄斧了!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-5-6 10:38:14
128# sophiafinn 大数据我知道怎么导入,找我就行了,你那是什么文件格式的?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-5-6 19:35:23
赫赫, 偶的处理级别没这么HUGE,因此除有时报错外,SAS基本可以处理. 但要本质解决这个问题, 恐怕是IT或者算法的问题了.  
本质上处理起来必须用内存缓冲技术,即要用到时分块地进入内存, 不用时存入临时文件. 那么接下来的问题就是如何处理分块矩阵拉,本质上任何算法都是矩阵运算,因此所有算法都要相应地为分块矩阵服务.比如原来简单的矩阵相乘, 如果分块计算,然后复原就困难点拉. 如果是特征值运算,那算法的复杂性就成倍上升.
其次是IT技术,比如多CPU处理, 分机协同处理. 偶不是很懂这些.
但本质仍然是算法. 比如稀疏矩阵就要用特殊算法才可行.
说得再理论点, 关键还是看你要解决的问题, 如果本身是NP问题, 估计再好的算法也无能为力了.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-6-10 17:33:45
并行可以不?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-6-20 09:09:41
SAS本来就是分块读入的啦。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-7-9 07:26:43
尽管这个问题并不是对所有人来说都很重要,但对于提高我们的编程技巧很有用处,顶!!!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-8-30 13:56:07
不懂,每个人都说了,说的那么多,怎么看啊?会的发言都不知道在哪里,能不能把有意义的发言清楚地、方便的展现给大家啊?我们一进来就可以看到,不用一页页的看
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-8-31 10:34:34
不太懂sas,先mark一下。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-9-3 10:30:36
sas菜鸟来学习的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-9-23 09:20:51
好问题,望赐教
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-9-26 13:51:15
直接把ORACLE 的数据库连上 SAS
是可以的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-9-26 15:13:57
我建议你读大数据两的文件可以用infile fnm truncover recfm=f lrecl=110 firstobs=2 OBS=第多少条;/*拆分读区文件
,最后一个写成infile fnm truncover recfm=f lrecl=110 obs=开始第多少条;/*一直到结束*/
,然后多了SAS脚本并行跑,生成同一个数据集,要么结合你的环境加入insertbuff=
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-9-26 15:15:36
如果有需要可以给我发邮件:lqxiying@163.com
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-10-7 00:09:30
我几乎没有遇到需要将数据全部读入内存处理的情况,至少在生产过程当中是这样。
如果必须完全读入内存, 那为什么不用R,STATA?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-10-7 11:20:20
好厉害啊   
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群