全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
8537 20
2012-03-16
悬赏 100 个论坛币 未解决
做logistic regression回国前准备:

1. independent variable:国外金融论坛有关交易词汇的统计:比如“trader,indicator, long, short, market, crazy”等有160个词汇的每日出现的相对频率,经过normalization,比如trader 的出现的次数除以当天总的帖子数目。
2. 预测对象:binary variable: 明日的volatility是否是top 15%, 比如大于60%这个值。 这样1 为大于,0 为小于。

用sas的logistic regression做回国,方法backward,因为不可能160个词汇都有预测能力,所以希望削减variable数量。
模型stay的标准0.05,

结果如下:



问题,最后sas给我选出来的可预测的词汇有52个之多,如上图,df比较高,可是其结论是这样的模型fit最好,这里是否有overfit的隐私存在呢,或者其他的一些明显的缺点呢?谢谢大家了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2012-3-16 21:32:29
没人解答啊,先谢一下吧。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-3-19 19:04:37
看一下Hosmer and Lemeshow Goodness-of-Fit Test,p值越小,就表示过拟合
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-3-21 00:26:54
飘洒 发表于 2012-3-19 19:04
看一下Hosmer and Lemeshow Goodness-of-Fit Test,p值越小,就表示过拟合
你好,飘洒,

我看了一下你说的这个test,去找了一个人写的实例,感觉好像一般?尤其这篇博客最后说的那句话:

The discrepancy between the SAS and R results is likely due to the odd binning SAS uses; the test is unstable in the presence of ties to the extent that some authorities suggest avoiding it. In general, with continuous predictors, the objections are not germane.

http://sas-and-r.blogspot.com/20 ... eshow-goodness.html

我感觉我的那个response图就是很好的和你这个test类似的一个检验,看起来比较平滑
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-3-21 23:31:03
shewenhao 发表于 2012-3-21 00:26
你好,飘洒,

我看了一下你说的这个test,去找了一个人写的实例,感觉好像一般?尤其这篇博客最后说的 ...
在实际中用logistic regression 的时候,主要还是在解释性和预测能力之间做平衡,因此,在保证解释性的情况下,看模型预测能力,可以通过新数据的检验来评估模型的预测能力。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-3-22 10:05:27
飘洒 发表于 2012-3-21 23:31
在实际中用logistic regression 的时候,主要还是在解释性和预测能力之间做平衡,因此,在保证解释性的情 ...
多谢回复,我再多尝试一下,回来汇报
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群