全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2034 0
2020-07-31
使用过采样克服不平衡的数据集。
问题:克服不平衡的数据集
在数据科学方面,性骚扰是一个不平衡的数据问题,这意味着整个数据集中几乎没有(已知)骚扰实例。
不平衡问题定义为类数不成比例的数据集。过采样是通过创建合成的少数样本来解决此问题的一种方法。
过采样的力量
SMOTE(综合少数族裔过采样技术)是一种常见的过采样方法,广泛用于使用过采样的不平衡高维数据集的机器学习中。SMOTE技术从加入少数派类别样本的直线的最近邻居中随机生成少数派类别的新示例或实例,以增加实例数量。SMOTE使用流行的K最近邻算法创建合成少数样本。
K个最近的邻居在少数点之间画一条线,并在该线的中间生成点。这是一项经过实验的技术,如今人们可以找到许多基于经典配方的SMOTE版本。让我们直观地看一下过采样对数据的总体影响。
考虑过采样之前,特征0和特征1之间的关系图
可视化表示数据而无需过度采样
可视化的数据过采样
出于可视化的考虑,选取了两个特征,并从它们的分布中可以清楚地看到少数样本与多数样本计数匹配。
对预测的影响
让我们比较过采样与不过采样的预测能力。在这两种情况下,随机森林均用作预测变量。在 使用此Python软件包比较所有方法之后,选择ProWSyn 版本的过采样作为性能最高的过采样方法。
让我们检查过采样前后模型的性能。
没有实现过采样的图形
ROCAUC无需过度采样
过采样图
具有超采样的ROCAUC
实施ProWSyn超采样后,我们可以看到ROCAUC得分(即接收器工作特性曲线下的面积)从84%增加到97%,增加了13%。我还能够将作为概率预测指标的Brier分数降低5%。
从结果中可以看出,当您必须使用过采样处理不平衡的数据集时,过采样可以大大提高模型的性能。就我而言,ProWSyn版本的SMOTE表现最好,但这始终取决于数据,您应该尝试使用不同的版本,以查看哪种版本最适合您。
什么是ProWSyn,为什么工作得如此好?
大多数数据科学:过采样方法缺乏为少数群体样本分配正确权重的适当过程,在这种情况下,涉及性骚扰案件的分类。这导致生成的合成样品分布不均。邻近加权合成过采样技术(ProWSyn)基于样本的邻近信息(即距边界的距离)为少数数据样本生成有效权重值,从而可以在少数数据集上正确分配生成的合成样本。
输出是什么?
性骚扰实例的概率图
x:实例数;y:概率
预测之后,预测概率的直方图看起来像上面的图像。原来是我想像的方式。该模型从许多特征中吸取了经验,结果发现特征空间中存在相关性,最终在类0和类1之间产生了如此明显的差异。简单来说,模型中的类0和1具有特征。 。
必须将更多的概率放在真正接近于1(100%概率)的概率上。从上面的直方图可以看出,接近100%概率的点数非常高。将某人视为非掠夺性是正常的,但要指责某人要难得多,因此该数字应该更低。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群