数据处理的一个小问题，请斑竹和高手们帮忙！

1701

收藏 2009-08-25

在处理一个住户调查数据的时候，由于行业、职业等信息并没有录入成代码，而大多是以原始答案形式存在的。而且原始答案比较随意，不统一。例如：属于住宿和餐饮业的就有”餐饮业“、”住宿餐饮“、”住宿和餐饮“、”住宿与餐饮“等近二十种答案，这给数据识别带来了较大麻烦。

不知道如何在stata里边能够实现字符串变量的模糊识别？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

sungmoo

2009-8-25 18:00:18

可不可以先提出你的识别（或标识）规则？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

经济人生

2009-8-26 00:57:17

2# sungmoo

谢谢斑竹的回复。

举例说明如下，

例如问卷中工人所在的行业，有很多人填写了“餐饮业”、“住宿餐饮”、“住宿和餐饮”、“住宿与餐饮”等等。

我的规则是只要该变量（字符串类别）出现了“餐饮”或者“住宿”字样，就可以把它们归成一类，再赋值就可以变成一般问卷中的数值，比如 “6 ” 来代表住宿和餐饮业，其他行业依次类推。

如果样本很少，其实我可以一个一个的归类就行了。但问题是有成千上万个样本，答案又千差万别，一个一个归类实在很累又花时间！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

sungmoo

2009-8-26 01:21:24

*设行业变量是字符型indu，以上面为例

g x=strpos(indu,"餐饮")+strpos(indu,"住宿")>0

*生成的x是0-1变量，1表示属于餐饮或住宿业，0表示其他。你可以再把1或0换成你想要的数字。其他依此类推。如果你统一给出各行业编码规则，也可以一并完成任务（不必挨个替换）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

经济人生

2009-8-26 21:32:24

谢谢，版主

看来string function里边学问真不少啊！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群