全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
1080 0
2019-02-15

住院费用影响因素分析:

拿到的数据是因变量是住院费用,数值型变量;自变量是患者的一些基线信息,是分类变量。

就决定先做单因素的分析,再把有意义的变量纳入多元线性回归模型中。

通过查阅文献采用了秩和检验的单因素分析方法。

首先用proc import 过程把数据集导入SAS;关键词datafile,out,dbms,getnames。。之后用proc contents看一下变量的基本情况,关键词:noprint,‘’、?data , out

进行描述性数据分析,主要是分类汇总,采用的是proc sql过程,关键词:select,from,group by。

之后进行秩和检验,用的是proc npar1way wilcoxon过程;class 自变量,var因变量,两组用wilcoxon过程,多组用Kruskal-Wallis过程;因为自变量有19个,所以用了macro过程。关键词: %macro, %do %to , class _COL&i, %end, %mend

%macro npa;

%do i=2 %to 20;

proc npar1waywilcoxon;

class_COL&i;

var _COL1;

run;

%end;

%mend npa;

%npa

秩和检验的原理:?

把有意义的变量纳入多元线性回归(逐步法)模型中,

Proc reg过程,

model 因变量=自变量/选项是selection=stepwisestb sle=0.15 sls=0.15;

sle:纳入水平,sls:剔除水平

原理:按照SLE规定的入选显著性水平,依次选入变量,同时对模型中现有的变量按SLS规定的剔除显著性水平剔除不显著的变量,直到无变量引入且无变量剔除为止

选择有意义的变量,根据参数估计值(非标准化系数)得到模型,是前面的系数。标准化估计系数的绝对值越大对住院费用的影响越大。

还做了一下共线性诊断,采用proc reg;model /选项写vif ;方差膨胀因子,vif超过10或5时存在较强的共线性。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群