全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
2009-12-15 15:36:08
解决了可以告诉我一下 前两天美国华盛顿大学的教授处理的数据有3个T sas根本不运行 谁有高招啊 那么多数据不能白瞎了啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-12-15 15:57:19
sas好像是直接从硬盘读数据,而不是调入内存吧。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-12-16 13:26:39
看了半天,没找到一个定论,版主能在前面总结下不?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-12-30 23:34:50
Divide and Control, or use other software for pre-process.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-1-12 15:37:24
邓贵大 发表于 2009-6-26 10:25
我觉得唯有像楼主那样的人材才可以处理无限大~~的数据!
呵呵,有人已经出来3TB的数据需要处理哦
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-1-12 15:44:47
genuines 发表于 2009-7-9 14:05
读入就处理?你的意思是分析结果来自不完整数据吗?
有这种意思
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-1-12 15:46:40
Jackywolf_2008 发表于 2009-9-28 13:28
SAS当然可以无限的处理数据,但是你怎么保证你的数据源是无限的数据呢,如果你能保证你的数据源是无限的SAS就可以无限的处理下去。举一个例子,例如你用sas连接到一个数据库上,读取某一个表的数据,该表上有触发器,会随时的往表中写数据,那你就可以用sas中的set的point选项和nobs选项实时的获得该表的记录数,然后用宏写一个死循环就可以了,但是这这样做有意义吗?
只要世界金融发展,那数据就是无限的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-1-15 19:20:07
这的确是一个问题,SAS确实要面临这样的问题,而且不是很好解决。
我自己遇到过,只能把数据劈分,分块来。
查了些国外的SAS使用者 ,给出了些建议,但似乎没有根本的解决办法。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-1-21 22:02:27
难的,不懂……
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-1-22 11:12:38
数据可真是海量啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-1-24 16:44:24
直接导入不可以吗???高人指点
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-1-26 23:11:57
那对电脑硬件的配置要求很高吧!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-2-13 00:58:34
提示: 作者被禁止或删除 内容自动屏蔽
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-2-21 14:45:44
好高深啊,希望快点入门。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-3-7 12:31:14
good!!!!!!!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-3-7 19:24:20
水平还达不到,只是顶一下
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-4-7 17:18:22
没想过

认真想想
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-4-9 12:46:08
我也正在考虑如何用SAS读取WEB数据,分析起来就更方便,请高人指导!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-4-13 10:22:19
首先是一个现实:十万数量级变量和亿数量级记录的数据规模对于一些行业是很正常的,并且随着时间的积累呈迅速增长。T级别的数据处理已经在国内一些以SAS为核心的BI系统或是分析项目中实施,并有很多经验。
1 SAS是一个统计分析工具软件,SAS管理数据只是一个搬运工,效率有限。大规模的数据预处理、存储、管理、调度,我认为交给数据库来做比较好。数据库+SAS的架构现在也很主流。各尽所能,各取其长而已。 在此前提下,某些意义上的所谓“读入即处理”可以通过数据库“定时定量”吐数据给SAS来实现。总之减少SAS对于数据的I/O操作,仅用其固化的“分析”功能,是一个不错的实现方式和方法。
2 SAS的商用价值在PROC步而非DATA步,编写DATA步时总会有这样的遗憾和无奈。DATA步的本质是逐条处理,理论上可以处理任何规模的数据,实现任何算法。个人感觉DATA步的弱项在于对非当前记录数据信息的记录与操作,这个在一些算法上很无力。所以说SAS只是一个工具,但它不是唯一的工具。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-5-16 10:37:00
smthny 发表于 2010-2-13 00:58
单个文件行数没超过2^63-1(大概9.2 quintillion)的话,用linux企业版加linux版本的SAS
我现在做的数据15T,单个SAS文件最大的1T
因为数据源是UNIX下处理好的SAS文件,所以没有办法用别的东西
如果哪位朋友知道怎么可以工作得快点,麻烦告诉一下,谢谢
有几个办法,一是并行处理可以节省时间,二是用grid处理都比较快
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-5-18 17:31:49
好深奥的问题,我现在还停留在初级阶段,惭愧
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-6-1 17:15:08
如果想处理千万级的数据量的话,最好还是采用oracle直接调用接口数据,这样会高效一些
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-6-9 21:57:16
db毫无疑问要快很多了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-6-16 10:54:28
1. 分层存储。比如南方销售数据和北方数据分开存入两个数据集。本质上是筛选Obsercation。
2. 按变量分类存储。通过Primary key variable将不同的数据集联系起来。本质上是筛选Variable。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-7-27 21:53:44
谢谢各位提出的方案
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-7-30 00:41:06
强烈同意raymonica 看法, 我也碰到这样非常头疼的问题. 郁闷中. 真希望哪位高手指点一下. 这里先谢过了.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-7-30 00:44:01
这位仁兄marloneusa, 能不能请你把你看到的贴子地址粘贴一下. 我想找人communication一下.谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-7-30 17:30:29
有些算法符合叠加性,如加,乘。而有些算法不符合叠加性,如减,除。所以分块处理有时是不适合的,也不适合读入就处理,需读入全部数据再处理比较好。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-9-19 23:55:58
想,思考。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-10-13 17:16:10
用spde或许会好些,或者是用connect,sas/share
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群