全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
3155 1
2017-03-01
数据挖掘过程中,在训练模型时,切记一个词叫做过度拟合,过度拟合就是说你的模型过度的提取了这份样本数据的特征,将此模型进行应用的时候便会发现,准确性并不高。
一个与样本拟合程度过高的模型,已经与实际脱离,失去了应用的价值过度拟合就是为了达到一致假设,而使假设变得过度严格。


从商业应用上看模型的准确定,就需要从数据和应用实际出发。尤其对于预测类的模型,数据的分布要有清晰的掌握。列明几点:
1.在商业应用中,不可能获取到全部因素,同时还有随机因素影响,在实际中,有100%的准确度基本是不可能的
2.如果出现100%准确度的模型,需要检查是不是错误的引入了和预测变量相关的变量,这种变量对于未来本身就是不确定的。这种情况出现,一来本身就是错误,二来,这样的模型在实践中无法应用。
3.模型的准确性与样本数据结果也有关系,例如A类样本占有90%,B类样本占比10%,此时构建模型预测一个样本属于A还是B,即便模型将样本全部判定为A,模型的准确性还可达到90%,对于实践毫无益处。
4.针对第三点如何处理样本失衡问题。两种方式,一般来讲比较普遍的方式是做样本失衡的负抽样或正抽样处理(尽可能不破坏真实的比例,偏离整体越大,得到模型虽然训练的准确度很不错,但是容易过拟合);另外可以采用少样本重复(把样本的特征加强了,重复多次,强调样本特征)

注意一点:
1.使用SmartMining构建模型时,可以使用评估节点查看模型预测的准确性,还可以查看详细的模型评估。
2.可以使用样本抽样,通过对比不用样本的模型准确性,以检测模型是否稳定。
数据挖掘软件.rar
大小:(261 Bytes)

只需: 5 个论坛币  马上下载



(转发注明出处)


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-2-2 22:14:42
thanks fro sharing
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群