全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
4676 2
2013-04-26
我的数据大概是这样的:

record                                                    negative1            n_negative1
北京真是一个污染严重的城市!              污染                     ???


需要在 n_negative1变量中,求出negative1 这个词在record中出现了几次~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-4-26 13:32:04
1. 答案:
help string functions
gen n_negative1 = (strlen(recode) - strlen(subinstr(recode, negative1, "", .)))/strlen(negative1)
2. 建议:
2.1 用Stata处理双字节的中文并不理想
help limits    // see: length of a string variable
2.2 中文文本处理存在分词方面的固有困难,看http://baike.baidu.com/view/19109.htm?func=retitle#5
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-8-28 09:43:28
good suggestion~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群