【求助】stata统计关键词出现次数

何妨一下楼

4796

收藏 2013-04-26

我的数据大概是这样的：

record negative1 n_negative1
北京真是一个污染严重的城市！污染 ???

需要在 n_negative1变量中，求出negative1 这个词在record中出现了几次~

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

voodoo

2013-4-26 13:32:04

1. 答案：
help string functions
gen n_negative1 = (strlen(recode) - strlen(subinstr(recode, negative1, "", .)))/strlen(negative1)
2. 建议：
2.1 用Stata处理双字节的中文并不理想
help limits // see: length of a string variable
2.2 中文文本处理存在分词方面的固有困难，看http://baike.baidu.com/view/19109.htm?func=retitle#5

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

peyzf

2015-8-28 09:43:28

good suggestion~

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群