不同软件在处理数据量上的问题:
spss的处理能力基本在50万的数据量以下,当然在此之上,如100万的数据,spss20也勉强不会撑破肚皮,但在运行方面就慢的吓人了,倘若计算什么复杂点的函数的话,我们最好准备足够的干粮,还要有张床(开个玩笑)。
Stata和eviews在统计方面很厉害,不过我没用过,具了解在运行千万级的数据还是没问题的。
Sas的强项就是处理大数据量,这个大家可以放心用,不用担心您的数据大到她处理不了的程度。另外如果您的数据是T级别的,而且非常强调效率,可以尝试分核处理,相互不受干扰的并行处理数据(相对来说),效率可想而知。
计量软件3(续)
介于版友的友好提醒,本人对计量软件3的提到的内容做诚恳检讨:
刚开始我是用笔记本模拟spss的速度及存量,由于笔记本有点老,运行百万级数据几次死机,加上平时基本不用spss分析过大的数据,因此得出了错误的结论。
纠正如下:
(我的电脑的版本信息是1G内存,硬盘465G,XP SP3,无病毒)
1. 总观测8600万的数据量,5个变量
在运行某个一般的统计过程中,spss20的运行速度大概是每秒运行100万个观测(粗略结果),一般描述过程的速度稍稍快一点点,一般的稍复杂点的函数(如非线性的),在不加约束的情况下,每秒运行20万个观测,如果很复杂的情况下,可能每秒运行1万个观测都不到。(每秒也是粗略的估计)。
在8600万的数据量的情况下,spss与sas在运行速度上的比较:一般的线性回归,1个因变量2个自变量.
Spss 一共用时是1分46秒
Sas 一共用时是1分30秒
2 . 在3亿4千万的数据量,5个变量
spss与sas在运行速度上的比较:一般的线性回归,1个因变量1个自变量.(为了节省时间用一个自变量)
Spss 一共用时是7分47秒
描述性统计量 |
| 均值 | 标准 偏差 | N |
b1 | .237024 | 2.1309951 | 346815360 |
b3 | .376320 | .1293719 | 346815360 |
Sas 一共用时是4分01秒
3. 友情提示spss界面只能显示8千万观测的数据,但能分析更大的数据量。希望大家多多交流、批评、指正。
4. 再次感谢版友提出的疑问。以上仅供参考。