课程论文,缺失值的原因吗?数据很大如果有缺失值应该怎么处理,试着删掉回归可还是会这样
因变量:幼儿园类型选择:(变量s2004:1为没有上过幼儿园;2为公办园;3为民办园;4为未注册幼儿园)
自变量:家庭社会经济背景:
1.家庭总收入(变量 total_income)
2.3.母亲受教育程度(变量a2032_1)
4.父亲受教育程度(变量a2032_2)
5.家庭成员文化程度(变量a2012)
其他控制变量:性别(变量a2003:1:男,2:女)、户口类型(变量a2022)
数据处理:
因变量处理:关于概念界定上,因变量的幼儿园类型中,没有上过幼儿园的概念即儿童未接受学前教育,为注册幼儿园为儿童上的是未注册幼儿园,即不具备办园条件的非正式幼儿园。数据处理上,将1.没有上过幼儿园排除,4.未注册幼儿园样本数为22,同样排除。生成新的虚拟变量“选择上公办园”和“选择上民办园”。
do文件是这样:use ind2017_20191202_version131.dta //使用ind2017数据集
merge m:1 hhid_2017 using hh2017_20191120_version13.dta //将hh2017数据集横向合并
save ind2017_20191202_version132.dta //保存合并后文件
use "/Users/masaru/Desktop/ind2017_20191202_version132.dta" //使用合并后的数据集
summarize //观察数据情况
codebook //观察变量缺失值
gen intotal_income=log(total_income) //对自变量家庭总收入进行取对数处理
gen std_s2004=r(std) //对因变量幼儿园类型进行标准化处理
gen std_a2032_1=r(std)
gen std_a2032_2=r(std)
gen std_a2012=r(std)
xi i.s2004 //对因变量进行虚拟变量分组