全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2407 0
2020-09-07
重采样方法:Bootstrap vs折刀
重采样是一种重用数据以生成代表基础总体的新的假设样本(称为重采样)的方式。在以下情况下使用:
您不知道总体的基本分布,
传统公式很难或不可能应用,
作为传统方法的替代品。
引导程序和折刀是两种流行的工具。尽管它们有很多相似之处(例如,它们都可以估计估计器θ的精度),但它们确实有一些显着差异。
什么是引导程序?
自举  是当今最流行的重采样方法。它使用替换抽样  来估计所需估计量的抽样分布。这种特定方法的主要目的是评估估计量的方差。它的确还有许多其他应用程序,包括:
估计估计量的置信区间和标准误差(例如,平均值的标准误差),
估算 器θ的估算精度,
处理非正态分布的数据,
计算  实验的样本量。
自举已被证明是估计统计数据许多分布的一种极好的方法,有时会比传统的正态近似更好的结果。它也适用于小样本。当模型不平滑时,它的性能不会很好,对于依赖数据,缺失数据,检查或异常数据来说,它不是一个很好的选择。
折刀
折刀的工作方式是依次删除数据集中的一个观测值,然后重新计算所需的统计量。它在计算上比自举更简单,而且更有序(即,程序步骤一遍又一遍地相同)。这意味着,与自举不同,理论上它可以手动执行。但是,它仍然需要大量计算,因此尽管过去通常使用手工计算,但如今通常使用计算机。对于非平滑统计(如中位数)和非线性(如相关系数),它表现不佳的一个区域。
折刀的主要应用是减少偏差  并评估 估计量的方差。它也可以用于:
查找统计信息的标准误差,
估计估算器θ的精度。
折刀和靴带之间的主要区别
总结这些差异,Brian Caffo提供了一个很好的比喻:“ 顾名思义,折刀是一种小型方便的工具;与引导程序相反,引导程序在道德上等同于一个充满工具的巨型车间。”
一些特定的区别:
引导程序需要一台计算机,并且计算强度大约是它的十倍。折刀可以(至少在理论上)用手完成。
从概念上讲,引导程序比折刀更简单。折刀需要对n个样本进行n次重复(例如,如果您有10
在大多数情况下(请参阅Efron,1982年),折刀的性能不如 Bootstrap。
由于大小B的有限重采样,因此引导程序会引入“缓冲错误”,这是一个额外的变化来源。请注意,对于较大的B尺寸或仅使用有偏差的引导程序样本集(称为b -bootstrap),会减小缓冲错误。
折刀比自举更保守,产生的估计标准误差略大。
由于复制之间的细微差别,每次折刀都会给出相同的结果。引导程序每次运行都会给出不同的结果。
对于成对一致性测度,折刀趋于在置信区间估计上表现更好。
自举对于偏斜的发行版表现更好。
折刀更适合于小的原始数据样本。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群