最近用stata分析数据有个问题一直解决不了,请教一下大家,问题描述如下。
我有一批类型如下的数据:
企业名(#varname)
豆瓣
豆瓣公司
豆瓣企业
中国豆瓣
美国豆瓣
……
新浪
新浪新闻
新浪中国
美国新浪
……
我想生成一个新的虚拟变量,相同企业归为一类,数据类型如下所示:
企业名(#varname) 类别(#dummyvar)
豆瓣 1
豆瓣公司 1
豆瓣企业 1
中国豆瓣 1
美国豆瓣 1
…… ……
新浪 2000
新浪新闻 2000
新浪中国 2000
美国新浪 2000
…… ……
对我的难点主要在以下两点:
- 相同企业的名称变量是不统一的,人肉眼一眼就可以看出来含豆瓣应归为1类,但不知道机器如何去判断;
- 数据量太大,可能有快1万个企业,因此不可能人工去drop。
请问各位大大这种情况如何去做?
谢谢!