全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
2413 3
2015-10-16
悬赏 5 个论坛币 已解决
我用一个简单的例子来描述我的问题:

例如,我有一个字符型变量var,它有如下四种取值:
var
Financial Constrain
Financial constrains
Financial constrained
financial-constraining
这四个值的意思其实是一样的,都是指financial constrain,但是变换了多种形式。
我希望通过处理之后能将这四个不同的值都变成financial constrain,即:
var
financial constrain
financial constrain
financial constrain
financial constrain


我知道应该如何将大写字母转换为小写,但是我应该如何才能将constrained和constrains都转换为constrain呢?
我的数据量很大,不可能一个个改,而且有很多其他的词语都是像这样以不同的形式出现,例如单数和复数,现在时和过去时,有没有办法能批量处理这些同词根的单词数据呢?

另外,有些词语之间有短横线(例如financial-constraining),还有的词语之间有点号或者下划线,那么这些要如何批量去除呢?将这些符号转换成空格就好,即将financial-constraining变成financial constrain


感谢各位的帮助。

最佳答案

夏目贵志 查看完整内容

一个一个的replace就是了。听你说的反正也不过十来个。比如把constrained换成constrain, replace x = subinstr(x,"constrained","constrain")
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-10-16 23:31:58
一个一个的replace就是了。听你说的反正也不过十来个。比如把constrained换成constrain,
replace x = subinstr(x,"constrained","constrain")
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-10-20 21:23:28
夏目贵志 发表于 2015-10-18 07:55
一个一个的replace就是了。听你说的反正也不过十来个。比如把constrained换成constrain,
replace x = sub ...
不不不,我的真实数据量很大,这里只是举一个简单的例子来说明我的问题
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-10-21 04:31:28
丘羽月之 发表于 2015-10-20 21:23
不不不,我的真实数据量很大,这里只是举一个简单的例子来说明我的问题
那就用help f_soundex里的方法吧。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群