全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
639 1
2023-09-18
我有个疑问想请教大家,(我之前没接触过统计,所以描述的很外行,请见谅),
我想用几个自变量a,b,c,d去建立logistic模型,来推断桥墩会不会有影响安全的裂缝.

现在遇到问题是,
每次采样会有8组数据,在采样时,
有些桥对于自变量a,b,c,d可以采集到因变量等于1的情况

有些桥所有8组自变量都采集不到因变量等于1的情况

现在问题来了,

对于覆盖需求的桥,这八组数据中含有因变量=1的,是不是就可以直接参与建模.

对于没有覆盖需求的桥,是8组数据(不含因变量=1的组),
1.全部参与建模?
2.还是全部丢弃?
3.还是降低要求矮个子里拔将军,找到8组数据里面最接近覆盖的那个,把因变量设置为1然后加入计算.

我想知道一般情况下,采用哪种方式来采集样本?


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2023-9-27 02:08:26
涉及到样本数据中正负样本分布不均衡时,如何采集样本进行建模。我的建议是:

对于覆盖正样本(因变量=1)的桥,直接使用其数据进行建模是合理的。
对于没有覆盖正样本的桥,不要全部丢弃,可以适当留一部分作为负样本,以平衡正负样本比例。
不要将负样本人为设置为正样本,这会引入错误的样本噪声。
可以考虑过采样等方法,通过合成新样本来增加正样本数。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群