我的目的是,从杂乱无章的地址中提取出有关地级市的信息,并把地址改为格式统一的地级市名称。
RegisterAddress是杂乱无章的地址,var1是所有地级市的模糊名称,var2是所有地级市的标准名称。
我想的办法是:通过var1用indexnot函数来从RegisterAddress提取有用的信息,最后把地址替换为地级市的标准名称var2。
如题,我想对var1和var2里的每个数据都执行如下三个命令:
gen 判断变量=indexnot("var1",RegisterAddress)//通过var1用indexnot函数来从RegisterAddress提取有用的信息
replace RegisterAddress="var2" if 判断变量==0//将能够提取出有用信息的观测值改为对应的标准地级市名称
drop 判断变量//删除用于判断是否提取出有用信息的变量
我的部分数据如下:
比如:
var1:北京 天津 石家庄
var2:北京市 天津市 石家庄市
我想要
gen 判断变量=indexnot("北京",RegisterAddress)
replace RegisterAddress="北京市" if 北京==0
drop 判断变量
gen 判断变量=indexnot("天津",RegisterAddress)
replace RegisterAddress="天津市" if 天津==0
drop 判断变量
gen 判断变量=indexnot("石家庄",RegisterAddress)
replace RegisterAddress="石家庄市" if 石家庄==0
drop 判断变量