全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
1878 6
2011-12-23
不同软件在处理数据量上的问题:
spss的处理能力基本在50万的数据量以下,当然在此之上,如100万的数据,spss20也勉强不会撑破肚皮,但在运行方面就慢的吓人了,倘若计算什么复杂点的函数的话,我们最好准备足够的干粮,还要有张床(开个玩笑)。
Stata和eviews在统计方面很厉害,不过我没用过,具了解在运行千万级的数据还是没问题的。
Sas的强项就是处理大数据量,这个大家可以放心用,不用担心您的数据大到她处理不了的程度。另外如果您的数据是T级别的,而且非常强调效率,可以尝试分核处理,相互不受干扰的并行处理数据(相对来说),效率可想而知。


计量软件3(续)

介于版友的友好提醒,本人对计量软件3的提到的内容做诚恳检讨:

刚开始我是用笔记本模拟spss的速度及存量,由于笔记本有点老,运行百万级数据几次死机,加上平时基本不用spss分析过大的数据,因此得出了错误的结论。

纠正如下:

(我的电脑的版本信息是1G内存,硬盘465GXP SP3,无病毒)

1. 总观测8600万的数据量,5个变量

在运行某个一般的统计过程中,spss20的运行速度大概是每秒运行100万个观测(粗略结果),一般描述过程的速度稍稍快一点点,一般的稍复杂点的函数(如非线性的),在不加约束的情况下,每秒运行20万个观测,如果很复杂的情况下,可能每秒运行1万个观测都不到。(每秒也是粗略的估计)。

8600万的数据量的情况下,spsssas在运行速度上的比较:一般的线性回归,1个因变量2个自变量.

Spss  一共用时是146

Sas   一共用时是130

2 .  3亿4千万的数据量,5个变量

spsssas在运行速度上的比较:一般的线性回归,1个因变量1个自变量.(为了节省时间用一个自变量)

Spss  一共用时是747

描述性统计量

均值

标准 偏差

N

b1

.237024

2.1309951

346815360

b3

.376320

.1293719

346815360



Sas   一共用时是401

3.  友情提示spss界面只能显示8千万观测的数据,但能分析更大的数据量。希望大家多多交流、批评、指正。

4.  再次感谢版友提出的疑问。以上仅供参考。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2011-12-23 17:18:00
数量级是一个方面,还要看变量多少的,clem的话,100万数据,做个模型还是行的,就是特别尤其非常的慢。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-12-23 17:24:00
Stata和eviews在统计方面很厉害,不过我没用过,具了解在运行千万级的数据还是没问题的。有点问题
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-12-23 17:38:13
统计的必学软件
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-12-23 17:55:35
受益匪浅。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-12-23 22:06:44
版主,我不太同意你的分析。
我不久前曾经用SPSS20 分析了1亿个数据,结果仍然有比较快的输出。
我前面的帖子提到过。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群