全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
1627 4
2009-08-25


在处理一个住户调查数据的时候,由于行业、职业等信息并没有录入成代码,而大多是以原始答案形式存在的。而且原始答案比较随意,不统一。例如:属于住宿和餐饮业的就有”餐饮业“、”住宿餐饮“、”住宿和餐饮“、”住宿与餐饮“等近二十种答案,这给数据识别带来了较大麻烦。

不知道如何在stata里边能够实现字符串变量的模糊识别?



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2009-8-25 18:00:18
可不可以先提出你的识别(或标识)规则?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-8-26 00:57:17
2# sungmoo


谢谢斑竹的回复。

举例说明如下,

例如问卷中工人所在的行业,有很多人填写了“餐饮业”、“住宿餐饮”、“住宿和餐饮”、“住宿与餐饮”等等。

我的规则是只要该变量(字符串类别)出现了“餐饮”或者“住宿”字样,就可以把它们归成一类,再赋值就可以变成一般问卷中的数值,比如 “6 ” 来代表住宿和餐饮业,其他行业依次类推。

如果样本很少,其实我可以一个一个的归类就行了。但问题是有成千上万个样本,答案又千差万别,一个一个归类实在很累又花时间!





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-8-26 01:21:24
*设行业变量是字符型indu,以上面为例

g x=strpos(indu,"餐饮")+strpos(indu,"住宿")>0

*生成的x是0-1变量,1表示属于餐饮或住宿业,0表示其他。你可以再把1或0换成你想要的数字。其他依此类推。如果你统一给出各行业编码规则,也可以一并完成任务(不必挨个替换)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2009-8-26 21:32:24
谢谢,版主

看来string  function里边学问真不少啊!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群