题目:用Stata软件分析数据,并解答问题。
Ø
数据:gss600.dta(CGSS2003数据,600个样本。数据在2003年收集)
Ø
变量:incmonth(月收入)、sex(性别)、birth(出生年)、region(地区:东中西部)、party(是否中共党员)、educ_y(受教育年限)
问题:
1、检查数据中的每一个变量,并对缺失值(“不适合”、“不回答”或“不知道”)的情况进行处理(将所有变量中的-3、-2和-1值替换为缺失值)。
2、估计一个多元线性回归模型,估计收入的决定因素(因变量为月收入的自然对数,自变量包括性别、年龄、地区、党员身份和受教育年限),并回答以下问题:
(1)模型的解释力怎么样?即所有自变量解释了因变量差异的多少比例?
(2)请解释模型的回归系数,特别是要详细解释每一个有显著性的系数。
(3)教育回报率是我们常见的一个概念,本研究的教育回报率是多少?如何获得?
3、假如有一个研究假设指出“收入的性别差异程度因地区的不同而不同”,请用本数据验证这个假设。(在问题1建立的模型的基础上进行分析并回答问题)
4、假如有一个研究假设指出“教育回报率存在性别差异”,请验证这个假设。(在问题1建立的模型的基础上进行分析并回答问题)
5、根据新古典经济学的人力资本理论,工作经验(即年资,通常用年龄代替)与收入之间的关系不是线性的,而是倒U型的曲线关系,即是说,一个人进入劳动力市场之后,收入随之年资的增加而增加,但当到了一定的年龄,由于精力和创造力开始下降,因此收入也开始下降。请验证这个假设。(在问题1建立的模型的基础上进行分析并回答问题)。
6、估计以下模型(因变量为收入的自然对数),并根据嵌套模型的方式作一个正式的表格(期刊论文的回归模型表格格式,使用eststo命令组)
l
模型1(基准模型):自变量为地区、性别
l
模型2(人力资本模型):自变量为地区、性别、受教育年限,年龄,年龄的平方
l
模型3(政治资本模型):自变量为地区、性别、受教育年限,年龄,年龄的平方,党员身份
l
模型4(交互模型):自变量为地区、性别、受教育年限,年龄,年龄的平方,党员身份,受教育年限与性别的交互项