全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
2009-6-27 15:14:37
说说数据处理的要求吧,具体要得到啥结果之类的,越详细越好。

我处理过千万条记录级别的数据,SAS完全可以胜任。
爱萌 发表于 2009-6-27 01:09
邓贵大 发表于 2009-6-26 10:25
我觉得唯有像楼主那样的人材才可以处理无限大~~的数据!
这说明你还没有真正处理过数据
我处理过最多的时候15GB的数据
用服务器和c++ 处理的
我对SAS的爱好决定了,我会思考这个问题
数据记录我见过1700万条记录的数据,不知道怎么用SAS处理,
我总不能什么都用C++写吧
请不要笑话俺,
俺是农村娃,呵呵
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-6-28 22:44:15
不太懂{:2_32:}{:2_25:}
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-6-29 07:47:07
用ORACLET处理大型数据最好不过
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-6-30 00:02:59
marloneusa 发表于 2009-6-24 21:24
22# edwardhuanghz

我觉得这里应当考虑的是模型的计算和优化。
如果是模型的计算和优化,
到计量经济与统计中,
SAS版就是尽可能挖掘SAS的能力
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-6-30 00:06:02
[quote]abelus 发表于 2009-6-27 15:14
说说数据处理的要求吧,具体要得到啥结果之类的,越详细越好。

我处理过千万条记录级别的数据,SAS完全可以胜任。

想请教你怎么处理的,能不能发一个类似程序到我的wjw84221@yahoo.com.cn
以供研究之用,谢谢,
顺便把你的经验也写一下,
我谢谢您了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-6-30 02:46:55
爱萌 发表于 2009-6-30 00:06
abelus 发表于 2009-6-27 15:14
说说数据处理的要求吧,具体要得到啥结果之类的,越详细越好。

我处理过千万条记录级别的数据,SAS完全可以胜任。

想请教你怎么处理的,能不能发一个类似程序到我的wjw84221@yahoo.com.cn
以供研究之用,谢谢,
顺便把你的经验也写一下,
我谢谢您了
我也向学习学习。我们经常碰到GB以上的数据,化的时间很长才能处理机条简单的句子。如果是百万级的变量和千万计的纪录,那该如何是好。谢谢。我的地址是
marlone.zj@gmail.com
thanks.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-6-30 16:22:35
通过看上面的贴好像自我感觉有误区,其实没有必要处理全部的数据,只要能得到近似正确的结果,还收要考虑效率的
统计学给我我们很多思路
一,选取案例,可以采取抽样的方式,实践证明若在原总体数据存在错误(可以是记录错的)的情况下,抽样的效果是要好于总体的。
二,上面说到有1000个变量,统计学,机器学习给我们提供了选择重要变量的方法,足以让我们解决此类问题。
三,没这个必要,今天你能处理GB级的,TB级的呢,数据挖掘给我们很好的借鉴,数据是以难以想象的速度增长的,计算能力虽然也在升级,但而这种升级来自于数据的压力,所以可以预测的说,计算能力感不上数据,何苦呢

呵呵,你呀,自认为统计的抽样是对的,
抽样的前提是大家独立,具有代表性,
而实际不是这样的,有很多知识需要从大量的数据挖掘,
如GENE microarry数据,基因的个数有5W,而样本只有10多个,你不要告诉我你抽去GENE研究
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-6-30 19:24:59
提示: 作者被禁止或删除 内容自动屏蔽
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-1 00:07:37
420948492 发表于 2009-6-30 16:22
通过看上面的贴好像自我感觉有误区,其实没有必要处理全部的数据,只要能得到近似正确的结果,还收要考虑效率的
统计学给我我们很多思路
一,选取案例,可以采取抽样的方式,实践证明若在原总体数据存在错误(可以是记录错的)的情况下,抽样的效果是要好于总体的。
二,上面说到有1000个变量,统计学,机器学习给我们提供了选择重要变量的方法,足以让我们解决此类问题。
三,没这个必要,今天你能处理GB级的,TB级的呢,数据挖掘给我们很好的借鉴,数据是以难以想象的速度增长的,计算能力虽然也在升级,但而这种升级来自于数据的压力,所以可以预测的说,计算能力感不上数据,何苦呢
呵呵,这说明你有统计抽样的意识,很好,
你的坚守统计阵地是好的,
我们为什么处理这么多数据,
我们能用抽样吗,不能,因为客户不许.
我们处理数据是为了客户,按照客户的要求处理的.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-1 10:44:09
很有用啊...........
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-1 16:12:04
關聯規則演算或是聚類分析都很吃記憶體,
真的太大量資料可能要先group,或以抽樣data演算.

sas  load data限制不多, 只是資料量越大速度越慢.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-1 19:16:25
学习中,还不太了解,还没有到那么高深的层次,望其项背。!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-1 19:27:03
我们这学期刚考过的SAS
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-2 20:34:58
fincomputing 发表于 2009-6-21 20:01
我觉得,考虑使用Matlab,R等替代软件,SAS处理大数据量可不是强项,呵呵~~
兄弟你正好说反了,MatLAB的强大在于它有很多的工具箱,在每个工具箱中有很多现成的函数,在遇到具体问题的时候,能够最大程度的减少编程的工作。但其运行速度实在不敢恭维。
R的强大在于package的更新速度很快,很多新的统计算法都能在第一时间得到实现,而且语法规范友好,但与其他软件一样,缺点是处理海量数据不太灵便,因为还是要将数据整体读入内存的,一个解决办法是使用RSQL。
SAS的强大之处正在于对于海量数据的处理上,虽然语法恶心点,所以我用SAS只是为了处理数据而已。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-3 00:03:25
不懂,刚起步,也期待着高人的见解
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-3 10:55:18
spss用的比较多
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-4 17:45:29
1# 爱萌
yese
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-4 17:46:43
46# lyriclj
hillary
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-5 00:33:07
小弟初学SAS,说得不对请纠正。能不能把ARRAY 和 MACRO结合使用达到一次只读入部分数据的目的?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-5 16:57:06
直连ORACLE?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-5 17:17:57
denver 发表于 2009-7-2 20:34
fincomputing 发表于 2009-6-21 20:01
我觉得,考虑使用Matlab,R等替代软件,SAS处理大数据量可不是强项,呵呵~~
兄弟你正好说反了,MatLAB的强大在于它有很多的工具箱,在每个工具箱中有很多现成的函数,在遇到具体问题的时候,能够最大程度的减少编程的工作。但其运行速度实在不敢恭维。
R的强大在于package的更新速度很快,很多新的统计算法都能在第一时间得到实现,而且语法规范友好,但与其他软件一样,缺点是处理海量数据不太灵便,因为还是要将数据整体读入内存的,一个解决办法是使用RSQL。
SAS的强大之处正在于对于海量数据的处理上,虽然语法恶心点,所以我用SAS只是为了处理数据而已。
补充和修正:

matlab是科学计算软件,不是处理数据的也不是处理统计分析的,在国际会议上SAS的结果是不需要多解释的,而matlab需要,
matlab工具箱很多是懒人的工具不是统计学家或者数据分析专家喜欢的,因为它很难改变一些流程和算法,比如神经网络,我知道他有,但我就是自己要写代码,自己可以随时修改代码以符合我的思想,我可以把原来的随机抽样改为分层随机抽样以适合我的数据.当然这个R也有这种弊端.

同时R作为免费的统计软件,很多方法没有经过时间的考验和理论的证明就要用,这对数据分析人员是非常可怕的事情.因为你根本不知道这个方法会产生什么问题.如果做
金融就意味着可以赢利也可以赔完,这就是模型风险. 而且R的帮助文件没有相关公式或者统计思想,这对学习者是很霸道的.要么必须接受他的算法和思想,相信他是对的,要么你不用它.

SAS,R,matlab都可以处理大量数据,相对来说SAS快一些, 同时SAS具有很多优秀的功能. 语法比较合理,R的语言是仿照SAS的语言.SAS基于C和C++写的,也可以直接利用,而R利用JAVA相对来说速度慢一些.MATLAB我不知道用什么语言写的,估计应该是C
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-6 18:48:14
爱萌 发表于 2009-7-5 17:17
denver 发表于 2009-7-2 20:34
fincomputing 发表于 2009-6-21 20:01
我觉得,考虑使用Matlab,R等替代软件,SAS处理大数据量可不是强项,呵呵~~
兄弟你正好说反了,MatLAB的强大在于它有很多的工具箱,在每个工具箱中有很多现成的函数,在遇到具体问题的时候,能够最大程度的减少编程的工作。但其运行速度实在不敢恭维。
R的强大在于package的更新速度很快,很多新的统计算法都能在第一时间得到实现,而且语法规范友好,但与其他软件一样,缺点是处理海量数据不太灵便,因为还是要将数据整体读入内存的,一个解决办法是使用RSQL。
SAS的强大之处正在于对于海量数据的处理上,虽然语法恶心点,所以我用SAS只是为了处理数据而已。
补充和修正:

matlab是科学计算软件,不是处理数据的也不是处理统计分析的,在国际会议上SAS的结果是不需要多解释的,而matlab需要,
matlab工具箱很多是懒人的工具不是统计学家或者数据分析专家喜欢的,因为它很难改变一些流程和算法,比如神经网络,我知道他有,但我就是自己要写代码,自己可以随时修改代码以符合我的思想,我可以把原来的随机抽样改为分层随机抽样以适合我的数据.当然这个R也有这种弊端.

同时R作为免费的统计软件,很多方法没有经过时间的考验和理论的证明就要用,这对数据分析人员是非常可怕的事情.因为你根本不知道这个方法会产生什么问题.如果做
金融就意味着可以赢利也可以赔完,这就是模型风险. 而且R的帮助文件没有相关公式或者统计思想,这对学习者是很霸道的.要么必须接受他的算法和思想,相信他是对的,要么你不用它.

SAS,R,matlab都可以处理大量数据,相对来说SAS快一些, 同时SAS具有很多优秀的功能. 语法比较合理,R的语言是仿照SAS的语言.SAS基于C和C++写的,也可以直接利用,而R利用JAVA相对来说速度慢一些.MATLAB我不知道用什么语言写的,估计应该是C
R可是好东西,不像他兄弟S+。
Matlab最早是Fortran写的,那是那个年代的产物,后来C出来了,压倒性的优势,matlab也改用c写了。就数据处理来说,很多情况Fortran的速度比C要快。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-6 21:52:01
真的没有考虑过这个问题
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-6 22:22:23
我对数据挖掘的认识分两个部分,一是算法和解释,二是数据
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-7 00:30:23
想学萨斯 就是不知道从那肯 \(^o^)/~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-7 11:53:48
xuexixuexi
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-7 16:38:21
没有考虑过这个问题.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-7 16:47:03
对年轻老师有强大的吸引
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-9 06:11:10
俺么啥实际经验,但听一个做统计的哥们讲 matlab跟SAS比起来比较像刚学走路的小baby和成人做比较
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-7-9 09:32:27
good question..
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群