看上去象税务局的需求。如果真的希望利用统计手段,那么最好找高校的人合作。
第一个问题可以借用时间序列数据的回归统计,例如:将税收作为因变量Y(t), GDP作为自变量X(t), 然后做回归。当然这里面有很多技术问题(我也不太懂),比如模型是使用:Y(t)=bX(t-1)+et还是Y(t)=b1*X(t-1)+b2*X(T-2)et+et等等。XY之间是否存在统计上存在显著的关系,需要看回归结果的统计检验值了。另外是否需要加入其他自变量才能使结果比较满意也是个问题。
一旦得到显著的回归结果,就可以使用模型对未来的税收Y作预测了,不仅可以预测确定的一个数值(期望值),而且可以选择预测数值可能存在范围(置信区间,例如99%,也就是你有99%的把握预测数应当落到你预测的范围内),一旦超出这个范围,你就可以认为出现了背离预警。
对不同地区可以设定相同的置信区间值(例如:99%,或者90%,等等),但不同地区的模型设置可能不同,需要逐个尝试着估计、测试。