热烈欢迎计量大侠进入：关于Logistics回归的一个问题

viking1111

5433

收藏 2010-01-29

悬赏 5 个论坛币已解决

各位计量高手：
      我最近在作一篇上市公司中小企业违约风险判别的论文，要用到Logistics回归。中小企业一共找了259个，ST公司90个，其余的是正常公司。因变量中：ST公司设为0，正常公司设为1；自变量是财务指标。因为文章的性质是要预测企业违约风险，所以采用2006到2008年的年报数据，ST公司组只能选用2009年被ST的29家企业。为了保证自然配比，正常公司也只能选用40个左右，这样一大半的样本点就白白浪费了。而且，对于Logistics回归而言，70个样本点显然也太少了。愁得不知道怎么好了。

   前几天偶然听一位老师说，计量里有一种二阶的什么方法，专门解决这种“0”的样本点过少、“1”的样本过多的二值变量问题。而且说这种计量方法可以推导出“0”和“1”的配比，而不采用自然配比，这样全部样本点基本都能用上（除了2009年之前被ST的公司）。老师推荐我看Greene的书，说上面有介绍，但是我实在不知道在书的部分，而且也不知道用计量软件怎么实现，现在再找老师也不现实了。如果各位大侠能出手帮我一把，在下感激不尽！！回答最好能讲的细一点，如果觉得悬赏币少，我可以再加！！！

最佳答案

bobguy 查看完整内容

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

bobguy

2010-1-29 19:53:16

viking1111 发表于 2010-1-31 19:24
5# bobguy

呵呵，看出来你的确是这方面的一个行家，这么专业，呵呵。
是这样的，样本点是从中国A股市场全部股票中根据国家相关标准筛选的，全部中小符合要求的一共只有259家，全在这里，所以没有抽样的问题存在。

259家中ST90，正常公司169，这个比例应该是自然配比。但问题是，我的目的是要预测企业违约风险。我想用2005-2008年的数据对2009年是否被ST进行回归，得到的公式可以用于对未来年份的违约概率进行预测。所以90家ST公司，只能选2009年被ST的29家，为了保证自然配比，正常公司的样本只能相应减少了。

所以，我想知道能不能用什么计量方法可以把169家正常公司全用上，减少信息损失。这几天我想出来两个方法。一个是用Bootstrap，对2009年被ST的公司进行反复抽样；方法二是因变量加上2008年被ST的公司，对应的自变量从2005-2008相应的提前到2004--2007，这样样本量就扩大了一倍。但问题是因为我想用Panel Data，所以怕第二种方法不合适。但第一种也不很理想。呵呵，还得请您指点

259 data points with goods=169 and bads=90 should be able do your analysis. Now you have all data points of 全部中小企业, it IS population data. There is no sampling here. So the bootstrap is useless. There is no needs to have 自然配比=1.There are many logistic analyses in which the research interesting is only the treatment effect rather that the probablity of being bads. When 自然配比=1, the biased estimator is the constant term and hance the probablity of being bads/goods(only true under logistics assumptions). It can be easy proved by a small simulation programs. The therotical proof can be found in
page 90 of Limited-dependent and qualitative variables in econometrics by Maddala. Actually the proof is easy only involving the math of a middle-school.

The advantage 自然配比=1 is
1) reduce cost --- expecially in medical research
2) the efficient loss is much less than a random sample --- events contains more information than nonevents becuase the number of events is much less than that of nonevents.
3) it is less efficient than using all data. --- this is simple true because sample with 自然配比=1 is a sub-sample of all data.

These points are useless in your case.

I would suggest that,
1) build a model with all data
2) build a model with data up to 2008

Contrasting these two models it may give you some hints about your models.

The data quality may need to pay more attension rather than quantity which you can do nothing about it.

Hope this will shed some lights on your research project.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

三攀

2010-1-29 20:48:35

不是二阶的方法，是二分变量的方法，其实不用考虑太复杂了。你参考一下古扎拉蒂的中级第15章的定性响应回归模型就可以了。只不过这是非群组的数据，采用个体的Logistic回归就可以。
另外推荐参考书：王济川郭志刚《Logistic 回归模型——方法与应用》，高等教育出版社，十分详细的讲述了估计、解释、诊断和评价的内容。
Eviews软件中有采用make equation 中method 选择Binary，再选择的Logistic选项就可以。
祝好运！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

viking1111

2010-1-29 22:55:25

2# 三攀

呵呵，谢谢啦。但是，我的问题其实不是Logistic回归二值变量的问题，而是怎么能充分利用其余100多个的样本点。有点类似Bootstrap那种方法，但是又不是靠仿真模拟，而是一种计量方法。呵呵，我明天先去图书馆查查你推荐的书

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

viking1111

2010-1-30 19:15:39

2# 三攀
三攀，你好
学校图书馆放假，下周一才能开。不过，我在Greene的《计量经济分析》里看到了响应回归相关内容。里面介绍了bootstrap和选择抽样法（choice based sampling——加权内生抽样极大似然估计量：weighted endogenous sampling maximun likelihood）。前者解决的是样本不足的问题，后者解决的是样本中0和1比例与总体中0、1配比不同的问题,采用给样本中“比例被低估的部分 ”加权的方法，但是似乎只能手算，没有成熟的软件。
你说的用Eviews的方法，我觉得那是不是只是做普通的Logistics回归，还是没有解决样本配比与实际总体配比不同的问题？
呵呵，麻烦啦

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

bobguy

2010-1-30 23:51:26

viking1111 发表于 2010-1-29 19:53
各位计量高手：
      我最近在作一篇上市公司中小企业违约风险判别的论文，要用到Logistics回归。中小企业一共找了259个，ST公司90个，其余的是正常公司。因变量中：ST公司设为0，正常公司设为1；自变量是财务指标。因为文章的性质是要预测企业违约风险，所以采用2006到2008年的年报数据，ST公司组只能选用2009年被ST的29家企业。为了保证自然配比，正常公司也只能选用40个左右，这样一大半的样本点就白白浪费了。而且，对于Logistics回归而言，70个样本点显然也太少了。愁得不知道怎么好了。

   前几天偶然听一位老师说，计量里有一种二阶的什么方法，专门解决这种“0”的样本点过少、“1”的样本过多的二值变量问题。而且说这种计量方法可以推导出“0”和“1”的配比，而不采用自然配比，这样全部样本点基本都能用上（除了2009年之前被ST的公司）。老师推荐我看Greene的书，说上面有介绍，但是我实在不知道在书的部分，而且也不知道用计量软件怎么实现，现在再找老师也不现实了。如果各位大侠能出手帮我一把，在下感激不尽！！回答最好能讲的细一点，如果觉得悬赏币少，我可以再加！！！

There is several things you need to sort out before you analyze your data.

1) Is that a random sample data. If it is NOT a random sample, then you really need to understand  sampling process. This will bised all you analysis.For example, the data is sample in beijing, but you want to infer all 中小企业违约 in China. Or the data you got is from ONE particular bank, it may ONLY represent that bank clients' behevior nothing else.

2) If your purpose is to estimate the probability of 中小企业违约, then the sampling weight needs to be know. Because you may oversampling the case of 1(bads/events) and undersampling the case of 0(goods/nonevebts). In this case the probability of 中小企业违约 is for the in-sample data NOT for the population. In theory, the logistic regression bised the intercept only when you only stratify the response in your sampling process.

3) In your case particular, you should use all your data. There is no need to farther sample down.

Sample down happens only,
1) cost of cellect data  -- it is irrelavent in this case.
2) easy for modelling  -- if you have many data say 1 million cases. This is not the case here.

Hope this helps.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

viking1111

2010-1-31 19:24:22

5# bobguy

呵呵，看出来你的确是这方面的一个行家，这么专业，呵呵。
是这样的，样本点是从中国A股市场全部股票中根据国家相关标准筛选的，全部中小符合要求的一共只有259家，全在这里，所以没有抽样的问题存在。

259家中ST90，正常公司169，这个比例应该是自然配比。但问题是，我的目的是要预测企业违约风险。我想用2005-2008年的数据对2009年是否被ST进行回归，得到的公式可以用于对未来年份的违约概率进行预测。所以90家ST公司，只能选2009年被ST的29家，为了保证自然配比，正常公司的样本只能相应减少了。

所以，我想知道能不能用什么计量方法可以把169家正常公司全用上，减少信息损失。这几天我想出来两个方法。一个是用Bootstrap，对2009年被ST的公司进行反复抽样；方法二是因变量加上2008年被ST的公司，对应的自变量从2005-2008相应的提前到2004--2007，这样样本量就扩大了一倍。但问题是因为我想用Panel Data，所以怕第二种方法不合适。但第一种也不很理想。呵呵，还得请您指点

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

viking1111

2010-1-31 20:47:59

其实我觉得，简单的说，我的困惑就是：二值变量中，总体样本中“0”极多，“1”极少。回归时，若按自然配比，那么“1”可能就淹没在“0”之中，使得模型判别“0”的正确率高，对“1”的判别效果不好；很多学者面对这种情况，采用1：1的配比，但这又有高估“1”数量的嫌疑。所以，这种情况下应该怎么处理比较好呢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

bobguy

2010-1-31 23:03:18

viking1111 发表于 2010-1-31 20:47
其实我觉得，简单的说，我的困惑就是：二值变量中，总体样本中“0”极多，“1”极少。回归时，若按自然配比，那么“1”可能就淹没在“0”之中，使得模型判别“0”的正确率高，对“1”的判别效果不好；很多学者面对这种情况，采用1：1的配比，但这又有高估“1”数量的嫌疑。所以，这种情况下应该怎么处理比较好呢

采用1：1的配比，但这又有高估“1”数量的嫌疑.

change it
高 ---> low
嫌疑 --> for sure

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

viking1111

2010-2-1 13:09:37

9# bobguy

太谢谢啦，我已经看了你推荐的书。呵呵，那是不是就是说，只要最后修改一下截距，增加Ln（P1）—Ln（P2）就可以消除有偏抽样带来的误差？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

viking1111

2010-2-1 13:22:23

9# bobguy

对了，看完书之后还有一个问题想和您切磋：关于Probit函数。
看过很多文献，每次实证研究的结果都是同样的数据Probit结果比Logistics稍好，他们俩又都比线性回归好。我一直搞不懂，为什么Logistics被封为企业财务困境最为广泛接受的方法，为什么它的结果总是没有Probit好？
看了第27页讲Logit和Normal Discriminant 的区别，我才恍然大悟为什么财务指标分布更接近正态分布而不是Logistics分布：Press（1978）的实证提到，自变量为dummy variable时，用Logistics分布的假设更好。财务指标一般是连续的，所以Probity效果更好。当然，这不能一概而论，还要经过一些统计检验。
这是一些心得，表述的不专业，还请多指教

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

最佳答案

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群