全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
4950 1
2011-01-24
大家好,具体问题如下:

一、例:样本的配比比例为1=6.8, 0=93.2。那么我在用spss做logit回归的时候的classfication cutoff是否设置成0.068?

二、例:6000+样本,变量15个左右,我无论怎么选择自变量,其对因变量的R-squre值都很小(几乎都小于0.1),这是为什么呢?要怎么做才能提高这个值呢?



谢谢。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2024-11-2 11:42:01
一、关于Logistic回归中的分类阈值(cutoff),在不平衡数据集的情况下,并不一定非得使用样本比例作为阈值。通常情况下,我们选择的cutoff值是为了达到特定的业务目标或是权衡精度与召回率(或精确度和敏感度)。

例如,在你提到的例子中,如果1类是异常事件且误报的成本很高,则可能需要一个较高的cutoff来减少假阳性;相反,如果漏报1类事件的后果更严重,则可能需要降低cutoff以提高识别率。因此,并不建议简单地将cutoff设置为0.068。

确定最优的cutoff值的一种常用方法是通过ROC曲线(Receiver Operating Characteristic Curve)。你可以根据业务需求或成本函数来选择一个点,这个点能够平衡真阳性率和假阳性率,通常选取的是曲线上离左上角最近的点。在SPSS中,可以通过保存预测概率,并使用这些预测概率与真实类别的关系来绘制ROC曲线并寻找最优cutoff。

二、R-squared值在Logistic回归中并不常见;它主要用于线性回归模型。然而,有类似的统计量如Cox & Snell R-Square和Nagelkerke R-Square用于衡量分类模型的解释力或拟合度。如果这些值很低(小于0.1),可能意味着以下几点:

1. **变量选择不当**:你当前选择的自变量可能与因变量关联不强,或者重要预测变量被遗漏。

2. **数据性质**:某些情况下,即使选择了正确的变量,由于内在的数据分布或随机性,模型也可能表现不佳。例如,如果因变量主要由未包含在分析中的因素驱动,则模型的解释力自然有限。

3. **非线性关系**:Logistic回归假设自变量与对数几率之间存在线性关系。如果实际的关系是非线性的,那么简单的Logistic回归可能无法捕捉这种复杂性。

提高模型性能的一些方法包括:

- **特征工程**:尝试转换现有变量或创建新变量(如交叉项、非线性项)以捕获更复杂的模式。
  
- **使用更多数据**:更多的观察值可以提供更多的信息,有助于模型学习到更强的关联。

- **考虑更复杂的方法**:如果Logistic回归不能充分解释数据,可以尝试其他机器学习算法如随机森林或神经网络,它们可能更好地处理非线性关系和高维空间中的模式。当然,在使用这些方法时需要防止过拟合。

最后,请记住在调整模型和参数的同时,保持统计的合理性,并确保结果能够反映实际情况与需求。

此文本由CAIE学术大模型生成,添加下方二维码,优先体验功能试用



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群