SPSS-论坛：用SPSS进行“对应分析 ANACOR”的方法（分享之13）

4649

收藏 2022-03-20

* Filename: 潘宝骏-对应分析-分享13.sps.
*---------------------------------------------------------------------------------------------------.
*13. 用SPSS进行“对应分析 ANACOR”的方法（分享之13）.
* 福建省疾控中心  潘宝骏(13509366051@163.com).

* 友情提醒：本人在“经管之家”“SPSS-论”发过12个“分享”，其中的分析程序，都是经过 SPSS v18
  以上版本运行过后上传、发了帖子；发帖时不能用命令语句的文件(*.sps)；读者使用时如果只是把帖子全选、
  复制、直接粘贴于 SPSS “语法”窗口中，就会被自动各空1行，会造成运行出错；
  解决办法：（1）把帖子内容全选、复制，先粘贴于 Word 窗口中，再全选、复制、粘贴于
  SPSS “语法”窗口中，就不会出现空行，即可顺利运行；
（2）从本帖子附件中下载*.sps文件来运行、下载*.spv 文件读取结果.

*“两项指标的聚类趋势”，可用 SPSS 中的 ANACOR 命令，进行“对应分析”,
  ANACOR 模块用于分析对应表（correspondence tables）,即交叉表（cross tabulation table）
  包含行、列对应情况的二维表，这些对应值能够反映“行”变量与“列”变量间相似性/密切程度.
* 虽然用 CROSSTABS 命令可得到交叉表，但它不能总是清晰地表达两个变量间的本质关系，
  特别是当感兴趣的变量是名词变量（无固有顺序或等级）且分类众多时尤其如此;
  且有时其关联情况的卡方检验结果，可能未达到有统计学意义的水平.
* 用ANACOR 命令进行“对应分析”，可图示两个名词变量间的关系、
  计算行与列的得分，并依此直观地图示呈现.

* 例如：人们“就诊原因”和“就诊医院”的调查结果：引自中国卫生统计杂志,(5):268,2002,
  “行r”表示就诊单位（有 8 种医疗机构）；“列j”表示就诊原因（有 6 种就诊原因）.
DATA LIST FREE /r(F8.0) j(F8.0) f(F8.0).
VARIABLE LABELS r '就诊单位' / j '就诊原因' /f '人数'.
VALUE LABELS r 1 '私人' 2 '卫生所'  3 '门诊部'  4 '卫生院'
            5 '县市区院' 6 '地市医院' 7 '省级医院' 8 '其他'
         /j 1 '距离近'  2 '价格低'  3 '质量好'  4 '定点医院'
            5 '有熟人'  6 '其它原因'.
BEGIN DATA.
1 1  1692  1 2  115 1 3 28 1 4 10 1 5 29  1  6  19
2 1 10896  2 2  388 2 3 208 2 4  379 2 5  142  2  6  33
3 1  207 3 2 5 3 3 32 3 4 33 3 5 4  3  6 5
4 1  3679  4 2  185 4 3  1702 4 4  111 4 5  128  4  6  40
5 1  576 5 2 1 5 3 834 5 4  387 5 5 92  5  6  36
6 1  474 6 2 5 6 3 355 6 4  999 6 5 19  6  6  28
7 1 59 7 2 3 7 3 67 7 4  439 7 5 4  7  6 9
8 1 76 8 2 9 8 3 24 8 4 33 8 5 10  8  6  86
END DATA.
WEIGHT BY f.
CROSSTABS /TABLES=r BY j /CELL=COUNT ROW /STATISTICS=CHISQ.

* ANACOR 命令产生步骤（SPSS v18）：分析→降维→对应分析→就诊定位r拉入“行”，
  定义范围最小值为1、最大值为8→就诊原因j拉入“列”→定义范围最小值为1、最大值为6→黏贴.
ANACOR TABLE=r(1,8) BY j(1,6)
   /DIMENSION=2
   /NORMALIZATION=CANONICAL
   /PRINT=TABLE SCORES PROFILE CONTRIBUTIONS PERMUTATION
   /VARIANCES=ROWS COLUMNS SINGULAR
   /PLOT=JOINT(8).
CORRESPONDENCE TABLE=r(1 8) BY j(1 6)
            /DIMENSIONS=2
            /MEASURE=CHISQ
            /STANDARDIZE=RCMEAN
            /NORMALIZATION=SYMMETRICAL
            /PRINT=TABLE RPOINTS CPOINTS
            /PLOT=NDIM(1,MAX) BIPLOT(20).

* 命令中包括 TABLE 子命令（指定行、列变量及取值范围）、DIMENSION 子命令（当为2维时为默认）、
  MEASURE 子命令（行列间距离的测量方法，本例为卡方距离）、STANDARDIZE 子命令、NORMALIZATION
（5种标化法）、PRINT 子命令（显示行、列边缘合计、构成比及其得分）；分析过程中会陆续输出
  行列合计数、行构成比、列构成比、行得分、列得分、奇异值或惯量、方差解释比例、维度Dim、贡献等
（其统计知识相当难懂，从略）.
* 两个命令的对应分析二维图形，输出结果相同.
* 图中“行r”变量的坐标值，可由输出的“行得分”中查到，
  例如“省级医院”Dim 1=2.565，Dim,2=1.451；
  又如“列j”变量的坐标值，可由输出的“列得分”中查到，
  例如“质量好”  Dim 1=0.742，Dim,2=-1.432,等等.
* 从输出的坐标图可见：就诊单位为私人、卫生所、门诊部者，与就诊原因为“价格低”“距离近”有关；
  就诊单位为省级医院、地市医院者，与其“定点医院”有关；
  就诊单位为卫生院、县市医院者，与就诊原因为“有熟人”、“质量好”有关.

* 应用时的注意事项:
(a)本实例只做简单介绍，其中还有许多统计概念与输出内容，读者须进一步阅读 SPSS
软件包中 ANACOR 命令的介绍内容，此处未做深入说明；
(b)样本量不能太小；行列二维表各单元格的理论数不能<5，否则相邻单元格须适当合并/删除；
(c)所用的名词变量(各就诊单位、就诊原因),尽量简化、用缩写、唯一性，因为图示会占用面积；
区分不同变量的标示也很重要（编辑图形时采用不同的图例）；建议各变量最多用4个汉字，
本例即如此，命令中的关键词 JOINT(8)，表示“行”“列”数据结合起来绘图，因为各名词变量
最多含4个汉字，所以占8个字符；如果用JOINT(6),就会漏掉1个字无法显示；
(d)用ANACOR命令绘制对应分析图时，最好以正方形图示，因为其中含4个象限；
要使之出现正方形图示，运算前须进行设置：编辑→选项→图表→图表宽高比→
本例用 SPSS v18,设定为1.23（太窄时加大些、太宽时缩小些）；
(e)将输出的图形用于发表论文前，一要与CROSSTABS输出对照，看看有无矛盾；二要对图形进行编辑
  （设置不同图例、图例标记适当放大等、不能用彩色图时更需采用不同类型的图例）.

*读者朋友：如果您觉得这个帖子所助益，盼赠1个“论坛币”（我的账号：“潘宝骏”），谢谢您！