全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
3965 1
2013-08-24
最近用stata分析数据有个问题一直解决不了,请教一下大家,问题描述如下。



我有一批类型如下的数据:

企业名(#varname)
豆瓣
豆瓣公司
豆瓣企业
中国豆瓣
美国豆瓣
……
新浪
新浪新闻
新浪中国
美国新浪

……


我想生成一个新的虚拟变量,相同企业归为一类,数据类型如下所示:
企业名(#varname)       类别(#dummyvar)
豆瓣                              1
豆瓣公司                        1
豆瓣企业                        1
中国豆瓣                        1
美国豆瓣                        1
……                               ……
新浪                              2000
新浪新闻                        2000
新浪中国                        2000
美国新浪                        2000

……                                ……


对我的难点主要在以下两点:
  • 相同企业的名称变量是不统一的,人肉眼一眼就可以看出来含豆瓣应归为1类,但不知道机器如何去判断;
  • 数据量太大,可能有快1万个企业,因此不可能人工去drop。
请问各位大大这种情况如何去做?

谢谢!



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-10-30 21:59:10
同问,求高手解答!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群