一、生成列联表l table foreign rep78, c(mean mpg) format(%9.2f) center //该命令要求Stata以纵轴为foreign,横轴为rep78,表格内容为mpg均值的方式生成二维列联表,format(%9.2f)要求显示的数字格式有两位小数,center要求表格内容中间对齐。
l table foreign rep78, c(mean mpg) format(%9.2f) center row col //row和col选项可以在输出的表格中添加了一列和一行,分别对行和列进行了加总。
l table workplace smokes race [fw=pop], c(mean prob) format(%9.3f) sc //生成三维列联表,使用[fw=pop]告诉Stata每个观测值代表的个体个数,使用c(mean prob) 告诉Stata表中内容是prob这个变量的均值,format(%9.3f)规范了表格内容的显示,sc要求增加一个加总的列。
l table workplace smokes race [fw=pop], by(sex) c(mean prob)format(%9.3f) //加入了by(sex)形成四维列联表。
二、独立性检验两变量进行列联表分析,检验它们的独立性,常用的统计量有皮尔逊卡方统计量(Pearson Chi-Square)和似然比统计量(Likelihood Ratio)
l tabulate rep78,sort //创建rep78的一维频数表
l sort prob //按照prob的数值升值排列各观测值
gen probcat=group(5) //将所有的数据平均分成5组,从而将连续型变量prob转换成具有从1到5的定序变量probcat
tabulate probcat smokes [fw=pop], chi2 //[fw=pop]表明每个观测值都代表了若干个个体的信息, chi2表示使用普通的卡方检验对得肺炎的概率(probcat)和是否吸烟(smoke)做独立性检验
三、关联性度量关联性度量的统计量通常是基于观测中的一致对和不一致对的个数。
1、 名义变量:通常采用基于卡方统计量的各种统计量来进行关联性度量,最常的是Cramer’s V系数
2、 有序变量:定义以下统计量来描述有序变量之间的有序关联性的大小:统计量:gamma统计量和 Kendall统计量
l tabulate probcat smokes [fw=pop], all //输出所有的统计量和关联系数