内在有偏的样本案例一:“1924 级的耶鲁毕业生平均年收入有 25111 美元。”并被《时代》杂志给予“哇,他们干的真不赖”的评价。从这个数据是否足以证明如果你把你的孩子送进耶鲁大学,那么在老年时你就不用辛苦地上班,甚至他年老时不用上班?从这个例子,可以发现两个可疑之处:一是太精确;二是大的令人难以置信。任何一群分布很广的人其平均收入能精确到以元为单位都不太可能,同时,常识告诉我们收入达到如此之高是不可能的事。因此,数据可能存在误差。那么误差来源于哪里?

案例二:“曾经准确的测了 1932 年美国大选的 1000 万个《文学文摘》的订阅者对 1936 年的大选进行了预测,通过电话调查,杂志订阅者向杂志编辑信誓旦旦地保证,兰登(London)将在竞选中脱颖而出,并且与罗斯福(Roosevelt)所得的票数比是 370:161。”但结果却并非如此。我们所知道的后来罗斯福一直在总统宝座上连任了四届。
案例一中,首先来看看接受耶鲁大学回访调查的人群是哪些?文中提到这个收入数据是建立在一个由能够取得联系并愿意回答问卷的耶鲁学生组成的样本之上的。因此,能够联系上和地址详细的大多数是那些比较成功的人士,发出的问卷也不可能完全回收。同时,当问及收入时,有些人出于虚荣或天生乐观而夸大数据;有些人却故意缩小数字。我们不能得到能够完全代表耶鲁大学毕业生的收入样本,其调查结果自然不可信。
案例二中,《文学文摘》的订阅者曾经成功预测了看1932年的美国总统大选,对于这样一个久经考验的调查群体怎么可能产生误差呢?那是因为1936 年就有能力购买电话和订阅杂志的人并不能真正代表选民,至少在经济上,他们是极特殊的,是有偏的,后来证实他们中许多人是共和党的选民。该样本选择了兰登,而选民心里却想着罗斯福。
回想现在利用互联网进行的网络调查,凡是能够纳入调查对象,都是有条件上网和对这方面调查内容感兴趣的群体,这种选择样本必然造成偏性。简言之,样本不具有代表性。
一个以抽样为基础的报告如果要有价值,就必须使用具有代表性的样本,这种样本排除了各种误差。而随机抽样、分层抽样等抽样方法最大可能避免了这种误差的出现。
来源:——《统计陷阱》