全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
3568 1
2012-12-26

   数据文件编号一般分成系统编号和用户自定义的编号。通常情况下,软件用户会生成一个自定义的编号,其重要性如下:

  (1)重要性:

   a、数据排序导致原始数据信息丢失。

   系统编号是固定不变的,当我们对数据进行排序时,数据集的观测会发生变化,但系统编号不变,这就会带来一个严重的问题,就是原有的数据集信息将会丢失(观测的先后顺序),而且一旦保存后,将无法恢复。不管是哪种类型的数据文件原始的数据信息都非常重要。

   b、合并文件的指示变量。

收集数据时经常会遇到这样的问题,有些变量并没有收集,后来希望将该变量对接在原有的数据集上,这就涉及到合并文件的横向对接的问题。这种对接在稍微复杂的情况下,会使用到关键变量,即用于对接时参考的信息,这个用户定义的ID号经常会被视为关键变量。

   c、一些图形可以显示ID号。

我们在绘制一些图形时,为了显示某图形的具体点,图形默认显示系统ID号,这样带来的问题是,数据文件的变动,则图形对应的观测信息将发生变化,因此,如果设置自定义的ID,则不存在这些问题。

  (2)产生ID方法:

   a、直接录入

如果收集的数据很少,直接手工录入就可以,像少量被试的调查,实验类数据等。

   b、使用EXCEL产生

EXCEL里有个功能是直接“拖拉”界面,生成从1-N的编号。由于EXCEL与SPSS的兼容性很好,用户可以直接将EXCEL的数据复制到SPSS软件里,不过因为EXCEL的承载量是有限的,因此当数据量比较大时,这种方法将不可取。

   C、使用函数或程序

由于SPSS的承载量无限(视硬盘而定),因此同样可以产生相同观测的自定义编号,用户可以使用函数功能或程序如下:

函数:计算变量→函数组→杂项$CASENUM;

程序:COMPUTE ID=$CASENUM.

      EXECUTE.;

需要注意的是,SPSS界面只能显示8000万的数据。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-4-3 20:43:05
budong
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群