悬赏 20 个论坛币 未解决
我做一个关于教育投资回报的论文,已有二手数据,别的机构搜集的 ,是个让湖北部分高校毕业生填的调查问卷,样本为700多。
Y1: 大学毕业第1年收入,
Y2: 第3年收入
Y3: 第5年收入,以上三个都是数值型,基本都是1000以上的
我的三个问题如下:
有很多X, 以下罗列我不知道如何操作的X变量:
问题1
X3:父母学历 (原始数据是字符型,答案从a到g (a,b,c,.....g), 分别代表从小学以下,到研究生以上) ----我该用什么命令把这些字符型的字母转成数值型的数字1-7?我希望让a=1,b=2....g=7 并且1-7都是数值型数据。(该变量名为“parent")
问题2
X6:大学的级别,是个字符型,原问卷上是让毕业生填毕业院校,我想把其归类一下。不超过10所大学的毕业生,只是有部分人把大学简写了,比如“武大”,“华科”这样。如何将其数值化?我希望按照本一--本三的级别(1-3)来定值,设想的命令是,
if a1="武“, ”华“,则赋值为3; if a1="某某学院“,”某某大学“,则赋值为2; if a1=.......则赋值为1. 由于简写的存在,所以只可以用字符首字来归类。这个命令该如何写? (大学级别这个变量名为“univ")
问题3
X7:大学的专业,这个比大学名称更不统一,有20多种专业,更艰巨的是有些受访者简写,比如 “生物”, “生物医学”, “生命科学”, “生化”等等,其实从我定量上看,都只把它们归为一类 ”生物“, 这种情况下,可否用开头字符或者中间包含的字符来将他们分类成“生物”呢?然后再定义成我研究中给他们专业排的级别,将其数值化,比如 ”生物“=2. .这一整套命令如何处理?(专业这个变量记为major)
希望好心的高手能否帮我把这三个问题的代码写一下呢?感激不尽!!!!