得到了总体还能做假设检验？

5264

收藏 2011-04-30

看了一个非常好的bootstrap和permutation test的入门读物，是大牛写的，http://bcs.whfreeman.com/ips5e/content/cat_080/pdf/moore14.pdf。非常受启发，但其中有个问题困扰了我。

这个材料介绍permutation test特点时，谈到confidence intervals和significance tests有一个微妙的不同就是针对总体也可以做假设检验。这个让人有些不好理解，因为既然你知道了总体，参数也就是知道了，怎么还需要假设检验去下结论呢？比如材料中举的例子，要比较一个公司男员工和女员工的平均收入的差异，直接把全体公司的男女员工都调查完了，这个时候直接用总体的参数去比较就行了，就不会犯传统假设检验的一类错误或二类错误了

请问大家对此有什么理解？或者reference参考，麻烦告知
谢谢

谢谢大家对此的热情讨论，把我这几天的思考也呈现给大家

其实假设检验是神马，概率计算和点估计才是王道

统计学包含统计描述和统计推断，统计推断又包含估计和假设检验。回想经典的假设检验过程：
准备过程：对感兴趣的总体参数选择一个统计量→推导出此统计量的抽样分布
操作过程：对感兴趣的参数设定一个值→计算该参数下统计量的抽样分布→将观察到的统计量放入统计量的抽样分布，求P值

再仔细想，其实这个过程就是概率计算和点估计的衍生过程。
为了逻辑解释的方便，我们以t检验来举例，并预先定义几个符号：mu1（总体均数值，描述所有对象集中程度），mu2（对应的抽样分布参数值，我们抽样分布集中程度），
我们是设定的mu2，有了mu2，我们就可以计算观察到的T值是不是小概率事件，如果是，则mu2这个假设不成立，并且mu2又是我们对mu1唯一能获得的点估计值，所以我们因此来推断mu1

所以总体和样本都可以做假设一个参数再去做他的概率计算，只不过前者的参数是总体参数，后者参数是抽样分布的参数。（因为这两个分布有对应关系，并且我们一般情况两个参数都是相等的，所以我们我们就没有强调这两个的区分？？）概率算出来了，再看发生的事件是不是小概率事件

请大家批评指正

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

耕耘使者

2011-4-30 10:53:04

楼主有理，有了总体，就没有必要做假设检验了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2011-4-30 11:26:40

耕耘使者发表于 2011-4-30 10:53 楼主有理，有了总体，就没有必要做假设检验了。

比较两个总体的分布是否“有显著差异”，假设检验是否有意义？

（当然，了解了两个总体以后，只要两者有稍许差异，我们就可以说它们“不服从相同的分布”。但我们有无必要讨论两者的差异足够“显著”？）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2011-4-30 11:30:59

zhaoxing731 发表于 2011-4-30 09:38 这个材料介绍permutation test特点时，谈到confidence intervals和significance tests有一个微妙的不同就是针对总体也可以做假设检验。这个让人有些不好理解，因为既然你知道了总体，参数也就是知道了，怎么还需要假设检验去下结论呢？比如材料中举的例子，要比较一个公司男员工和女员工的平均收入的差异，直接把全体公司的男女员工都调查完了，这个时候直接用总体的参数去比较就行了，就不会犯传统假设检验的一类错误或二类错误了
请问大家对此有什么理解？

个人理解，这里先要讨论的是，在了解了这两个总体（该公司各男员工的工资及各女员工的工资）以后，若他们的平均工资确有差异（无论绝对值有多大或有多小），我们有无必要讨论这种差异是“显著的”。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

耕耘使者

2011-4-30 19:58:15

sungmoo 发表于 2011-4-30 11:26
耕耘使者发表于 2011-4-30 10:53 楼主有理，有了总体，就没有必要做假设检验了。
比较两个总体的分布是否“有显著差异”，假设检验是否有意义？

（当然，了解了两个总体以后，只要两者有稍许差异，我们就可以说它们“不服从相同的分布”。但我们有无必要讨论两者的差异足够“显著”？）

统计包括统计描述和统计推断，而假设检验隶属于后者。
什么是统计推断？由样本信息推断总体信息。显然，基本的统计学逻辑是，既然知道了总体参数，那么还推断什么？我又专门查阅了有关书籍，如卢淑华的【社会统计学】250页提到：
“在统计推论中，我们研究通过样本对总体进行参数估计或假设检验。”
可见，我们探讨问题的共同背景或者说平台，是在“统计学”这个平台上的，所说的“显著”性检验，是指统计学意义上的假设检验。至于您提到的“我们有无必要讨论两者的差异足够“显著””，由于不是由样本推断总体，而取决于研究者主观判断，故已经不是统计学意义上的显著性检验。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

耕耘使者

2011-4-30 20:14:56

sungmoo 发表于 2011-4-30 11:30

个人理解，这里先要讨论的是，在了解了这两个总体（该公司各男员工的工资及各女员工的工资）以后，若他们的平均工资确有差异（无论绝对值有多大或有多小），我们有无必要讨论这种差异是“显著的”。

如果有必要讨论这种差异是否“显著”时，这也不是统计学意义上显著，否则，就必须知道二者之差的分布，如果总体确定，两个参数（即平均工资）是确定的常数，二者差亦是一个常数，那又如何得来这个差的分布？分布只是适用于随机变量，而不适用于常数。
如果要进行显著性检验，必须推翻楼主的一个陈述，就是“已经知道了总体”。我认为确实楼主的这个提法不妥，仅仅知道了两个公司某一年的男女员工平均工资，从时间序列角度看，这只是一个样本观测值而已，因为平均工资是变动的，从动态上看，是一个随机变量。因此，我们得到的仍然可以看作是样本值。
所以，关键点是我们研究的意图。是只看某一年男女员工平均工资的差异，还是想通过这个样本，了解总体上的性别差异。如果是前者，无需假设检验。而后者，必须假设检验。而从常识看，没有理由认为研究只是想了解某一年信息，一切研究都是为了获得总体上规律性的信息，因此，我赞同sungmoo版主的看法，必须进行显著性检验。
楼主则误解了“总体”的含义。总体不仅仅是指静态意义上的空间含义，更包括动态上的时间含义,而后者更为关键。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

sungmoo

2011-4-30 20:29:23

耕耘使者发表于 2011-4-30 19:58 统计包括统计描述和统计推断，而假设检验隶属于后者。什么是统计推断？由样本信息推断总体信息。显然，基本的统计学逻辑是，既然知道了总体参数，那么还推断什么？

这里还涉及一个问题：统计推断不光涉及参数估计。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2011-4-30 20:32:17

耕耘使者发表于 2011-4-30 19:58 统计包括统计描述和统计推断，而假设检验隶属于后者。
什么是统计推断？由样本信息推断总体信息。显然，基本的统计学逻辑是，既然知道了总体参数，那么还推断什么？我又专门查阅了有关书籍，如卢淑华的【社会统计学】250页提到：
“在统计推论中，我们研究通过样本对总体进行参数估计或假设检验。”
可见，我们探讨问题的共同背景或者说平台，是在“统计学”这个平台上的，所说的“显著”性检验，是指统计学意义上的假设检验。至于您提到的“我们有无必要讨论两者的差异足够“显著””，由于不是由样本推断总体，而取决于研究者主观判断，故已经不是统计学意义上的显著性检验。

这种“主观判断”也许也可以对应一些规则（这些规则又对应了特定的操作），而“关于总体的（某些性质的）显著性检验”，也许就是在这种规则意义上的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2011-4-30 20:39:57

耕耘使者发表于 2011-4-30 20:14
如果有必要讨论这种差异是否“显著”时，这也不是统计学意义上显著，否则，就必须知道二者之差的分布，如果总体确定，两个参数（即平均工资）是确定的常数，二者差亦是一个常数，那又如何得来这个差的分布？分布只是适用于随机变量，而不适用于常数。
如果要进行显著性检验，必须推翻楼主的一个陈述，就是“已经知道了总体”。我认为确实楼主的这个提法不妥，仅仅知道了两个公司某一年的男女员工平均工资，从时间序列角度看，这只是一个样本观测值而已，因为平均工资是变动的，从动态上看，是一个随机变量。因此，我们得到的仍然可以看作是样本值。
所以，关键点是我们研究的意图。是只看某一年男女员工平均工资的差异，还是想通过这个样本，了解总体上的性别差异。如果是前者，无需假设检验。而后者，必须假设检验。而从常识看，没有理由认为研究只是想了解某一年信息，一切研究都是为了获得总体上规律性的信息，因此，我赞同sungmoo版主的看法，必须进行显著性检验。
楼主则误解了“总体”的含义。总体不仅仅是指静态意义上的空间含义，更包括动态上的时间含义,而后者更为关键。

我前面的想法是，如果谈“已知总体时关于总体的（某些性质）的显著性检验”，必须首先讨论并明确其意义是什么（比如，它对应了怎样的规则与操作），即我们须了解这是哪种意义上的检验。而由此自然引出更先导的问题：引入这种意义或操作的目的是什么（必要性讨论）。

如果将“总体”作上述理解（“动态上的时间含义”），在某一时点所获得的某公司所有男女员工的（某特定时段的）工资的数据，其实只是一组样本观测值。这也就回到普通意义上的检验了。

由此，如果认为“总体”的意义总是相对的，就某一具体的“总体”而言，若“进一步”只把它理解成某一“更基础”总体的样本观测值，也就可以进行普通意义的统计操作了。

综上，对于楼主的问题，也许涉及三条路径：一条是调整“总体”的意义（总体总是相对的），从而相关检验仍是原有意义上的；一条是调整“检验”的意义，从而保持总体的原有意义；一条是“总体”与“检验”的意义都不调整，从而认为“已知总体时关于总体的检验”是无意义的。

对于第一条路径，我们必须时刻小心“总体”的意义具体是什么；对于第二条路径，我们也许可以设计“已知总体情况下抽样”的操作方案，利用抽样的信息定义并进行“已知总体时的显著性检验”。

以上只是一些杂想。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

耕耘使者

2011-4-30 23:29:52

sungmoo 发表于 2011-4-30 20:39

综上，对于楼主的问题，也许涉及三条路径：一条是调整“总体”的意义（总体总是相对的），从而相关检验仍是原有意义上的；一条是调整“检验”的意义，从而保持总体的原有意义；一条是“总体”与“检验”的意义都不调整，从而认为“已知总体时关于总体的检验”是无意义的。

对于第一条路径，我们必须时刻小心“总体”的意义具体是什么；对于第二条路径，我们也许可以设计“已知总体情况下抽样”的操作方案，利用抽样的信息定义并进行“已知总体时的显著性检验”。

以上只是一些杂想。

第二条路径似乎有问题，好像自相矛盾，既然“总体已知”，还何须再靠“抽样”去推断？抽样仅适用于总体未知的情形。
第一条路径和第三条路径，我完全赞同。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2011-4-30 23:50:26

耕耘使者发表于 2011-4-30 23:29 第二条路径似乎有问题，好像自相矛盾，既然“总体已知”，还何须再靠“抽样”去推断？抽样仅适用于总体未知的情形。

类似于“自抽样”。

比如这样的问题：A、B、C三班全体学生的成绩均已知；且A班的平均分比B班高0.5分，比C班高5分。我们想构造一种检验说明，A班与B班“平均分无显著差异”，A班与C班“平均分有显著差异”。从而，对各总体进行（可放回）简单随机抽样，这样可以得到样本量很大的样本（各班的样本量甚至超过各班实际学生数）。我们“主观上”试图说明，若“总体意义”上，A班与B班的平均分无显著差异，对它们的（这样得到的）样本的检验的结果也应是“无显著差异”。

这种操作是否有意义？是否有必要？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wylin

2011-5-1 07:37:33

应该理解为无限总体,能否把整本书上传???

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

耕耘使者

2011-5-1 09:23:22

sungmoo 发表于 2011-4-30 23:50
类似于“自抽样”。
比如这样的问题：A、B、C三班全体学生的成绩均已知；且A班的平均分比B班高0.5分，比C班高5分。我们想构造一种检验说明，A班与B班“平均分无显著差异”，A班与C班“平均分有显著差异”。从而，对各总体进行（可放回）简单随机抽样，这样可以得到样本量很大的样本（各班的样本量甚至超过各班实际学生数）。我们“主观上”试图说明，若“总体意义”上，A班与B班的平均分无显著差异，对它们的（这样得到的）样本的检验的结果也应是“无显著差异”。

这种操作是否有意义？是否有必要？

我的思维惯性是：由样本推断总体，至于已知总体上无显著差异，而去检验样本的结果是否也无显著差异，一句话说，一般思维是已知样本，去推断总体，现在反过来了，是已知总体，去推断样本。这样一种突破传统模型的做法，我还真的无法立即想明白，想去深入学习一下，您能否推荐一两本书或文章？统计学方法日新月异，感觉自己虽然从教统计学多年，但知识更新太慢了。
谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zhaoxing731

2011-5-2 12:35:58

我编辑了原帖，请大家批评指正

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

gemini69

2011-5-2 13:24:46

zhaoxing731 发表于 2011-4-30 09:38
看了一个非常好的bootstrap和permutation test的入门读物，是大牛写的，http://bcs.whfreeman.com/ips5e/content/cat_080/pdf/moore14.pdf。非常受启发，但其中有个问题困扰了我。

这个材料介绍permutation test特点时，谈到confidence intervals和significance tests有一个微妙的不同就是针对总体也可以做假设检验。这个让人有些不好理解，因为既然你知道了总体，参数也就是知道了，怎么还需要假设检验去下结论呢？比如材料中举的例子，要比较一个公司男员工和女员工的平均收入的差异，直接把全体公司的男女员工都调查完了，这个时候直接用总体的参数去比较就行了，就不会犯传统假设检验的一类错误或二类错误了

请问大家对此有什么理解？或者reference参考，麻烦告知
谢谢

谢谢大家对此的热情讨论，把我这几天的思考也呈现给大家 ......
请大家批评指正

疑问是来自下列的摘录吗？！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ciwawa801023

2011-5-2 18:32:56

耕耘使者发表于 2011-4-30 10:53
楼主有理，有了总体，就没有必要做假设检验了。

有了总体数据，就能计算总体参数了，还检验什么呢？假设检验还有非参数检验，可以检验数据分布类型

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

耕耘使者

2011-5-2 20:39:28

ciwawa801023 发表于 2011-5-2 18:32
耕耘使者发表于 2011-4-30 10:53
楼主有理，有了总体，就没有必要做假设检验了。
有了总体数据，就能计算总体参数了，还检验什么呢？假设检验还有非参数检验，可以检验数据分布类型

我的理解是，非参数检验同参数检验有一点是共同的，即都是用样本推断总体。
“有了总体数据，就能计算总体参数了”，事实是，有了总体数据，不仅能计算总体参数，还是判断总体分布。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zhaoxing731

2011-5-2 20:45:10

对，就是这
15# gemini69

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zhaoxing731

2011-5-2 20:45:59

看了这一章就知道这是一本非常棒的书，但国内貌似没有 12# wylin

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wjlwyk

2011-5-2 20:50:21

统计的研究方法而已，就是说，假如总体怎样，得到统计结论和总体是否和总体本来一致，由此说明统计方法合理性而已。并不是已知总体再作统计没意义这样理解的

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jeroc

2011-5-3 14:20:17

我阅读了楼主提供的材料。我认为那个地方讲的很具有误导性。实际上如果已经知道了总体，也就不需要统计了。但是材料中实际上还是把公司中的全体员工做为了一种从全世界人口中选来的样本。这已经不再是总体的概念。再从这个基础上讲置信区间和假设检验有什么区别根本就是错的。顺便说一句，统计中这些基本概念都是很具体的，如果想的太复杂，那肯定是理解错了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

蓝色

2011-8-10 10:27:09

不错的讨论啊

感觉书应该也不错
国内没有

https://bbs.pinggu.org/thread-1334988-1-1.html

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

蓝色

2012-2-4 09:20:34

论坛上面已经有讨论的这本书了
https://bbs.pinggu.org/thread-1334988-1-1.html

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

biostat

2012-2-4 10:23:22

有没有“显著意义”是对样本而言的，总体间的差别不能用“显著意义”，只能说有无差别！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

凌1975

2019-3-6 15:03:50

学统计一直都是老师讲我们听，数据也是课本上的，所以到了工作里一堆问题，不是样本小了，就是样本大了，可是老师从没讲过这种情况怎么处理。关于你的问题我之前做卡方检验遇到过一个例题，公司人员，员工和管理层比例，如果是2:3最好，但是现在是17:35问问符不符合2:3这个情况（数字不记得了，瞎编的），说白了总体就是公司人员，如果按照总体直接比，那结果肯定是不一样。但是检验结果是符合，这些中间误差是随机的。我们有95%置信区间，在一定的误差范围内可以接受这个假设。我自己觉得学统计不能看1是1，要想着这个1前后左右都有点误差

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群