全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管百科 爱问频道
1325 3
2019-04-11
KNN算法数据归一化方式只由训练集数据决定呀?我们归一化的目的不是只是为了防止量纲导致距离有某些变量决定嘛,那现在我假设有训练集和测试集,先取出一条测试集与训练集混合一起归一化,这样的做法有什么潜在的问题呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2019-4-11 11:20:22
壶中乾坤 发表于 2019-4-11 11:09
KNN算法数据归一化方式只由训练集数据决定呀?我们归一化的目的不是只是为了防止量纲导致距离有某些变量决定 ...
归一化的参数也是模型的一部分,用了测试集的数据相当于已经用了未来数据了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-4-11 11:24:25
foozhencheng 发表于 2019-4-11 11:20
归一化的参数也是模型的一部分,用了测试集的数据相当于已经用了未来数据了。
如果测试集中的数据按照训练集数据归一化方式处理并没有将取值scale到0-1之间,那么这样的数据还需要做预测吗?我听我们老师上课的意思是默认训练集和测试集来自同一个分布,对于特殊值就不预测了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-5-10 11:02:09
壶中乾坤 发表于 2019-4-11 11:24
如果测试集中的数据按照训练集数据归一化方式处理并没有将取值scale到0-1之间,那么这样的数据还需要做预 ...
没有取值到0~1之间也要按照训练集的归一化方式处理,这也是用极值归一化的一个问题,一般来说可以采用标准化的方式,即减去平均值再除以标准差,有些时序数据还会去掉关联,可以参考白噪声化。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群