全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
431 0
2022-12-12
基于抽样的算法SMOTE

2002年,引入了一种基于抽样的算法SMOTE(Synthetic Minority Over-Sampling Technique),试图解决类不平衡问题。由于其简单性和有效性,它是最常用的方法之一。它是过采样和欠采样的组合,但过采样方法不是复制少数类,而是通过算法构造新的少数类数据实例。

在传统的过采样中,少数类正在被复制。在SMOTE中,以这种方式构造新的少数派实例:



构造算法背后的直觉是过采样导致过度拟合,因为重复实例导致决策边界收紧。相反,我们将创建“类似”的示例。对于机器学习算法,这些新构造的实例不是精确的副本,因此软化了决策边界。这可以说明如下:


结果,分类器更通用并且不会过度拟合。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群