如何快速生成大量变量相关性分析的结果表？

5766

收藏 2018-03-31

利用SAS进行回归建模之前，经常需要将因变量与可能的自变量进行相关性分析。其目的是初步寻找可能对因变量产生影响的自变量列表。然而，在实际分析中，涉及到的自变量可能多达上百个，相关性分析的结果能够显示出来，但不易生成可以进一步分析的数据表。能否将一个因变量与上百个可能的自变量之间的相关性生成一个数据表以便后期进一步筛选呢？生成的数据表要包括相关性系数、系数的显著性以及相应的样本个数，直接使用proc corr难以完成这个任务。但是，如果巧妙结合proc corr和proc transpose则可以轻松做到。
这里以一个完整的程序为例进行说明，使用的是Pearson相关性（Spearman相关性完全类似），生成的数据表含有相关性系数、系数的显著性（以p值为例，t值类似）以及相应的样本个数。生成的相关性分析结果表如下图所示，附件还提供了一个完整的程序，演示了一个因变量Isotonicity与上百个可能的自变量的Pearson相关性分析过程和结果表格的生成过程，程序结构非常简单，带有注释，且程序中不涉及上百个自变量的具体名称，具有较强的通用性，很容易进行复用。