现有格式如下的数据:
| id | credit | amount | month | day | dif |
| 小明 | 1 | 3000 | 7 | 1 | 17 |
| 小明 | 1 | 3000 | 7 | 1 | 16 |
| 小明 | 1 | 3000 | 12 | 0 | 13 |
| 小明 | 1 | 3000 | 12 | 0 | 53 |
| 小明 | 1 | 3000 | 12 | 1 | 12 |
| 小明 | 2 | 3000 | 6 | 1 | 64 |
| 小明 | 2 | 3000 | 6 | 0 | 9 |
| 小红 | 1 | 3000 | 3 | 0 | 1 |
小红
小红 | 1
1 | 3000
3000 | 3
3 | 1
1 | 11
8 |
配对原则:对于day=1的配对day=0,要求id credit amount month都相同。
配对结果应该是:
前两行配对失败,第3行配对第5行,第4行配对第5行,那么第5行是随机挑选第3或者第4行配对吗?还有其他配对方法吗?
之所以配对原因是:
回归方程:dif=day + credit + amount+ month,存在问题day=1与day=0时的credit、amount和month不同,存在内生性,因为想用配对的方法,保证day=1和day=0时投资者所面临的选择是相同的。
已经自己尝试很久,并且看了很多帖子,还是没能搞清楚,请大家指教,不尽感谢!!!!