看一个市场调研报告,用用户构成和全国人口普查构成对比(用户中60%女性),以z-score>3.0或<-3.0作为性别构成是否和全国人口平均有差异的判定。不超过则差异可能是随机,超过3.0则认为显著不同。
我理解这里z score是计算是否在3倍标准差外,但不是很清楚他的样本标准差怎么算的的?比如知道用户数10,000人,女性60%,全国1,000,000人,女性51%,如何计算两个样本的标准差呢?
还是需要构造出两个原始数据集(1万列,1百万列)才能计算?
需要把性别替换为0,1变量来算吗?
多谢!!
以下Z公式是用平均数之差异,除以 ( 样本1标准差/样本1容量+样本2标准差/容量)的平方根。
2、如果检验来自两个的两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著。其Z值计算公式为:

其中:
是样本1,样本2的平均数;- S1,S2是样本1,样本2的标准差;
- n1,n2是样本1,样本2的容量。