数据文件编号一般分成系统编号和用户自定义的编号。通常情况下,软件用户会生成一个自定义的编号,其重要性如下:
(1)重要性:
a、数据排序导致原始数据信息丢失。
系统编号是固定不变的,当我们对数据进行排序时,数据集的观测会发生变化,但系统编号不变,这就会带来一个严重的问题,就是原有的数据集信息将会丢失(观测的先后顺序),而且一旦保存后,将无法恢复。不管是哪种类型的数据文件原始的数据信息都非常重要。
b、合并文件的指示变量。
收集数据时经常会遇到这样的问题,有些变量并没有收集,后来希望将该变量对接在原有的数据集上,这就涉及到合并文件的横向对接的问题。这种对接在稍微复杂的情况下,会使用到关键变量,即用于对接时参考的信息,这个用户定义的ID号经常会被视为关键变量。
c、一些图形可以显示ID号。
我们在绘制一些图形时,为了显示某图形的具体点,图形默认显示系统ID号,这样带来的问题是,数据文件的变动,则图形对应的观测信息将发生变化,因此,如果设置自定义的ID,则不存在这些问题。
(2)产生ID方法:
a、直接录入
如果收集的数据很少,直接手工录入就可以,像少量被试的调查,实验类数据等。
b、使用EXCEL产生
EXCEL里有个功能是直接“拖拉”界面,生成从1-N的编号。由于EXCEL与SPSS的兼容性很好,用户可以直接将EXCEL的数据复制到SPSS软件里,不过因为EXCEL的承载量是有限的,因此当数据量比较大时,这种方法将不可取。
C、使用函数或程序
由于SPSS的承载量无限(视硬盘而定),因此同样可以产生相同观测的自定义编号,用户可以使用函数功能或程序如下:
函数:计算变量→函数组→杂项→$CASENUM;
程序:COMPUTE ID=$CASENUM.
EXECUTE.;
需要注意的是,SPSS界面只能显示8000万的数据。