所谓大 N 小 T 并没有明确地界定。主要是因为 GMM 的相关理论都是基于大样本提出来的,只是提醒大家在样本较小时使用 GMM 效果可能不佳。
因此,你提到的 31 个省份,10 年的资料很难讲是否符合要求,因为没有明确的标准。不过文献中很多人采用这个数据进行动态面板的分析,你可以参考一下他们的模型设定,以及对工具变量的选取方法。
400 个 obs,150 个 IVs。显然,你的样本中 T 比较大,即时间跨度比较长,建议采用 maxlag(#) 选项设定,减少工具变量的个数。例如 xtabond y x, maxlags(5) 意味着只有 L2.y, L3.y, L4.y 和 L5.y 可以作为工具变量。你可以想想,L6.y 虽然在理论上也是合理的工具变量,但是它与内生变量 D.L.y 的相关性通常都会很低,我甚至觉得设定 maxlags(4) 足矣。
help xtabond
maxlags(#) maximum lags of predetermined and endogenous variables for use as instruments