做logistic regression回国前准备:
1. independent variable:国外金融论坛有关交易词汇的统计:比如“trader,indicator, long, short, market, crazy”等有160个词汇的每日出现的相对频率,经过normalization,比如trader 的出现的次数除以当天总的帖子数目。
2. 预测对象:binary variable: 明日的volatility是否是top 15%, 比如大于60%这个值。 这样1 为大于,0 为小于。
用sas的logistic regression做回国,方法backward,因为不可能160个词汇都有预测能力,所以希望削减variable数量。
模型stay的标准0.05,
结果如下:

问题,最后sas给我选出来的可预测的词汇有52个之多,如上图,df比较高,可是其结论是这样的模型fit最好,这里是否有overfit的隐私存在呢,或者其他的一些明显的缺点呢?谢谢大家了