全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
694 5
2022-09-20
求助,就是我在做分类时,响应变量是二分类变量。共73条数据,一类有55条(A),另一类为18条(B),我做建模预测时,总是会将B类误判为A类。我觉得原因是B类的数据显著少于A类,所以会产生预测准确率较差的结果,请问有什么办法提高预测准确率吗?还是说我数据量太少了?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-9-21 09:10:19
这东西很难说啊
如果你是实证分析,那你在模拟的时候按照实证分析的数据去拟合模拟数据了吗?效果是一样的嘛?
使用了Cross Validation嘛?有对照的方法吗?统一的评价指标是什么呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-9-21 09:12:47
看有啥统计检验方法
如果用精确检验,或者贝叶斯啥的,LZ担心的问题可以相当大程度的消除
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-9-30 22:05:03
橙红的果士 发表于 2022-9-21 09:10
这东西很难说啊
如果你是实证分析,那你在模拟的时候按照实证分析的数据去拟合模拟数据了吗?效果是一样的 ...
我是实证分析啊,用的实际数据,没有做数值模拟。
交叉验证也做过了,效果依然不是很好,很烦
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-10-1 20:36:23
大概的原因:
1、A、B两类样本数都小,尤其是B类,样本容量小,意味着单个样本的某个变量的极值对结果产生很大影响;
2、变量选择不合理,变量之间的响应关系不可靠,控制变量之间存在共线性,变量缺失;
3、分类算法不合适。如果是变量少且变量相关性较低的情况,可以试试朴素贝叶斯分类,如果变量很多,但样本少,可试试随机森林。

可以先试试不同分类方法,比较一下结果,如果都不理想,再想办法扩大数据量,可能的话可以尽量增加一些变量。
另外,没有算法是百分百准确的,如果最终的模型太准确,反而会过拟合。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-10-10 16:21:40
llb_321 发表于 2022-10-1 20:36
大概的原因:
1、A、B两类样本数都小,尤其是B类,样本容量小,意味着单个样本的某个变量的极值对结果产生 ...
谢谢您的回复,我也对产生的原因做了一些分析。我的变量是18维,而且存在严重的多重共线性。考虑了6钟常用的机器学习方法,发现效果都不是很好。
扩大样本量的话,这个没有办法实现,应为我的数据是实际数据。
最后我在特征提取上采用了新的方法,结果比之前的有明显改善,可能就是因为特征提取上存在问题吧
现在问题已经解决了,再次谢谢您啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群