全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1806 4
2015-03-31
悬赏 5 个论坛币 未解决
     手头的资料大多都是分类定性变量,那么该不该做数据标准化呢?以前学习的方法大都是针对定量数据的,而且本人分析的目的主要是预测,并不想直接用离差标准化法,即减去最小值再除以离差的做法处理,请问还有什么好的方法对定性数据做标准化吗?谢谢!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-5-4 15:29:12
木有人看到这个帖子。嗨。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-5-6 09:17:04
你说的只有定性数据是指的特征值都是定性的吗?
比如电影类别有(武打、言情),然后根据(主演的主要作品类别、剧中是否有武器)这样的特征去分类预测?

这样用KNN聚类就可以呀,计算当前特征与类别特征的距离,取前K个最短距离中最多的那个类标号就可以了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-5-13 10:22:15
YasselBing 发表于 2015-5-6 09:17
你说的只有定性数据是指的特征值都是定性的吗?
比如电影类别有(武打、言情),然后根据(主演的主要作品 ...
当前特征与类别特征的距离?怎么算?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-5-20 13:44:44
数据标准化的目的是为了在同一个标准下进行比较,打个比方说,中国人均收入3000元每月,美国人均收入800刀每月,你说谁的生活更幸福点?不好说,不是一个标准没法衡量。更直观的例子如,预测GDP都按亿元为单位,残差平方和一般是几点几,你要按元来算,残差平方和得上十位数,同一种预测方法,不同的残差平方和,你说怎么比。所以你要是为了跟别人比较预测方法的好坏,你就得标准化,你要只是为了得到某种结论,比如分类、聚类等等,那就无所谓标准化,给某个属性赋值就ok了,比如武打按1~9设置武打程度等等。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群