了解I型和II型错误
我最近收到一个询问,要求我在进行统计测试时澄清I型错误和II型错误之间的区别。让我使用此博客来澄清差异,并讨论I型和II型错误的潜在成本后果。我还在博客[1]的末尾提供了一些示例。
在统计检验理论中,统计误差的概念是假设检验的组成部分。统计检验要求明确假设无效假设(H 0),例如“此人健康”,“此被告无罪”或“此产品未损坏”。 无效假设检验的结果可能是正面的(健康,无罪,不破裂),也可能是负面的(不健康,有罪,不破裂)。
如果测试的结果与现实相符,那么就做出了正确的决定(例如,人是健康的,被测试为健康,或者人不健康并且被测试为不健康)。但是,如果测试结果与实际不符,则可以区分两种类型的错误:I型错误和II型错误。
类型I错误(假肯定错误)
当原假设为真时,会发生I型错误,但会被拒绝。 让我再说一遍,当原假设实际上为true,但被测试拒绝为false时,会发生I型错误。
I型错误或误报,是在实际为假时断言为真。 该误报错误基本上是一个“误报”,该结果表明给定条件实际上尚未满足时即已经满足(即,错误地假定为肯定结果)。
让我们以牧羊和狼为例。 假设我们的零假设是“不存在狼”。 当没有狼出现时,I型错误(或假阳性)将是“哭狼”。 也就是说,实际情况是没有狼出现。但是,牧羊人错误地称呼“狼!狼!”,指示有狼在场。 这是I型错误或误报错误。
II型错误(假阴性)
当原假设为假时,会发生II型错误,但会错误地被拒绝。 让我再说一遍,当原假设实际上是false,但被测试接受为true时,就会发生II型错误。
II型错误或假阴性是测试结果表明条件失败而实际上成功的地方。 当我们不相信真实条件时,就会发生II型错误。
继续我们的牧羊人和狼的榜样。 同样,我们的零假设是“不存在狼”。 当实际上有一只狼出现时,II型错误(或假阴性)将无能为力(不是“哭狼”)。 也就是说,实际情况是有狼在场。但是,牧羊人错误地指出没有狼在场,并继续在他的iPhone上玩《 Candy Crush》。 这是II型错误或错误的否定错误。
下表中显示了原假设的真实性/错误性与测试结果之间的表格关系:
零假设是正确的
空假设是错误的
拒绝原假设
类型I错误
假阳性
正确的结果
真肯定
未能拒绝原假设
正确的结果
真阴性
II型错误
假阴性
例子
让我们来看一些示例,并使用简单的形式来帮助我们了解I型和II型错误的潜在成本后果。 让我们从牧羊人/狼的例子开始。
零假设
类型I错误/错误肯定
II型错误/假阴性
狼不存在
当实际上没有狼时,牧羊人认为狼存在(牧羊人哭狼)
牧羊人认为狼实际上不存在时,牧羊人认为狼不存在(牧羊人什么也不做)
成本评估
与争夺镇民杀死不存在的狼相关的成本(实际成本加上牧羊人的信誉)
狼吃掉的绵羊的重置成本,以及雇用新牧羊人的重置成本
注意:我添加了一行称为“成本评估”。 由于不能一概而论地指出I型或II型错误更严重(因为它高度依赖于原假设的陈述),因此我添加了此成本评估,以帮助我了解哪个错误更为“昂贵”。而我可能想要进行更多测试。
接下来,让我们看看经典的刑事难题。 在口语用法中,I类错误可以被认为是“使无辜者定罪”,II类错误可以被认为是“让有罪的人获释”。
零假设
类型I错误/错误肯定
II型错误/假阴性
人无罪
人被判定为有罪当人实际上并没有作案(定罪的无辜的人)
人被判定无罪时,他们实际上没有作案(让一个有罪的人去免费)
成本评估
将无辜者送入监狱并剥夺他们的个人自由的社会成本(在我们的社会中,这几乎是无法承受的成本)
允许有罪犯在街上漫游并构成未来犯罪的风险
让我们看一些与业务相关的示例。 在这些示例中,我重新表述了原假设,因此在进行成本评估时要格外小心。
零假设
类型I错误/错误肯定
II型错误/假阴性
药物A治愈疾病B
(H 0为 true,但被拒绝为false)
药物A治愈疾病B,但被拒绝为假
(H 0为 false,但被接受为true)
药物A不能治愈疾病B,但可以接受
成本评估
拒绝可以治愈B型疾病的有效药物的机会成本损失
使用无效药物的意外副作用(甚至死亡)
让我们再试一次。
零假设
类型I错误/错误肯定
II型错误/假阴性
展示广告A可有效促进转化
(H 0为 true,但被拒绝为false)
展示广告A可有效促进转化,但被拒绝为错误
(H 0为 false,但被接受为true)
展示广告A不能有效促进转化,但可以接受
成本评估
拒绝有效的展示广告A造成的机会成本损失
由于向目标访问者宣传无效的展示广告A而导致销售损失
“药品”示例中的成本后果相当可观,因此在我们的示例中,为了最大程度地减少II型错误(使用无效药物)的影响,可能需要进行额外的测试。 但是,对于类型I和类型II的错误,展示广告示例中的成本分摊很小,因此,为解决类型I和类型II的错误而进行的额外投资可能不值得。
概要
I型和II型错误在很大程度上取决于原假设的语言或位置。更改原假设的位置可能会导致I型和II型错误切换角色。
很难创建一个笼统的声明,即I型错误比II型错误更严重,反之亦然。 I型错误和II型错误的严重性只能在无效假设的情况下进行判断,应谨慎地措辞以确保我们进行了正确的测试。
我强烈建议像上面的示例一样添加“成本评估”分析。 这将有助于确定哪种类型的错误更为“昂贵”,并确定需要进行额外测试的领域。
1