examyaya 发表于 2012-9-20 22:54 
good question!
抽样的问题是很重要,我手上已经有2000年的普查数据,可以作为我的对比,我现在需要20 ...
2000年普查数据(个人层面)确实早就公布了,但重庆1997年才成为直辖市,2000年的情况与2013年差异太大。
关于抽样,你说大学生、农民工、企业家各200份,那么你今后在统计描述的时候还要加权假如你准备描述总体的话。作为博士论文,很难想象你不试图还原总体。我估计你的导师(推测应该是外方的)不会轻易让你放弃加权。难点在于,你如何加权?因为根本无从得知这些人群到底怎么分布的。所以,从某种意义上说,与其如此麻烦,不如按照常规的办法去抽样,让职业自由分布。
关于你提到的两城市之间的差异,其实也许你并没完全想清楚。我刚才已经解释了,两城市的流动人口类型差异是根本性的,根源不在于人而在于城市。所以,没有个人(或家庭)层面的因素能作为解释。所有你可以观察到的个人或家庭层面的异质性都是结果而不是原因。原因就一条:北京是首都,重庆是一个新直辖市且合并了大量不发达县(还加上三峡移民)。从这个角度说,从一开始你的研究目标设定就有偏。
另外,我也不确定你是否真的能做到counterfactual的比较:即在给定个人与家庭背景的条件下,模拟一个现实中在重庆的移民假如在北京的住房状况(vice verse)。如果你的出发点和目标是这一条,那这个题目有意义且可行。但这对数据质量要求会更高,因为看两组样本的分布情况了——需要用到DFL分解。
最后,一个课题质量高低不完全是看与现有文献之间的样本量比较,还要看数据质量、方法设定和最终讨论的层次。从你目前的描述看,有很多技术问题你没有很好的方案。