stata学习日志005——列联分析

6928

收藏 2021-07-12

一、生成列联表

l table foreign rep78, c(mean mpg) format(%9.2f) center //该命令要求Stata以纵轴为foreign，横轴为rep78，表格内容为mpg均值的方式生成二维列联表，format(%9.2f)要求显示的数字格式有两位小数，center要求表格内容中间对齐。

l table foreign rep78, c(mean mpg) format(%9.2f) center row col //row和col选项可以在输出的表格中添加了一列和一行，分别对行和列进行了加总。

l table workplace smokes race [fw=pop], c(mean prob) format(%9.3f) sc //生成三维列联表，使用[fw=pop]告诉Stata每个观测值代表的个体个数，使用c(mean prob) 告诉Stata表中内容是prob这个变量的均值，format(%9.3f)规范了表格内容的显示，sc要求增加一个加总的列。

l table workplace smokes race [fw=pop], by(sex) c(mean prob)format(%9.3f) //加入了by(sex)形成四维列联表。

二、独立性检验

两变量进行列联表分析，检验它们的独立性，常用的统计量有皮尔逊卡方统计量（Pearson Chi-Square）和似然比统计量（Likelihood Ratio）

l tabulate rep78,sort //创建rep78的一维频数表

l sort prob //按照prob的数值升值排列各观测值

gen probcat=group(5) //将所有的数据平均分成5组，从而将连续型变量prob转换成具有从1到5的定序变量probcat

tabulate probcat smokes [fw=pop], chi2 //[fw=pop]表明每个观测值都代表了若干个个体的信息, chi2表示使用普通的卡方检验对得肺炎的概率（probcat）和是否吸烟（smoke）做独立性检验

三、关联性度量

关联性度量的统计量通常是基于观测中的一致对和不一致对的个数。

1、名义变量：通常采用基于卡方统计量的各种统计量来进行关联性度量，最常的是Cramer’s V系数

2、有序变量：定义以下统计量来描述有序变量之间的有序关联性的大小：统计量：gamma统计量和 Kendall统计量

l tabulate probcat smokes [fw=pop], all //输出所有的统计量和关联系数

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群