全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
5066 5
2014-09-17
请教大家:我想比较某一变量内观测值之间的差异度,筛选出实质相同和不同的情况,比如:

stkcd        bgnf        zjjc        firm
1        2001        平安银行        深圳鹏城会计师事务所
1        2002        平安银行        深圳鹏城会计师事务所
1        2003        平安银行        深圳鹏城会计师事务所
1        2004        平安银行        深圳鹏城会计师事务所
1        2005        平安银行        深圳市鹏城会计师事务所有限公司
1        2006        平安银行        深圳市鹏城会计师事务所有限公司
1        2007        平安银行        安永华明会计师事务所
1        2008        平安银行        安永华明会计师事务所
1        2009        平安银行        安永华明会计师事务所
1        2010        平安银行        安永华明会计师事务所
1        2011        平安银行        安永华明会计师事务所
1        2012        平安银行        安永华明会计师事务所
1        2013        平安银行        普华永道中天会计师事务所

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~·
我想知道,平安银行究竟哪一年更换了不同的firm,因为中文表述、数据采集以及公司变更组织结构等问题,尽管“深圳鹏城会计师事务所”与“        深圳市鹏城会计师事务所有限公司”是相同的公司,使用STATA简单比较仍然会被认为是不同的firm,有没有办法能够区分出这种问题,分辨从“深圳鹏城会计师事务所”到“        深圳市鹏城会计师事务所有限公司“并没有更换firm,而从”深圳市鹏城会计师事务所有限公司“与”安永华明会计师事务所“更换了firm。
实在很挠头,谢谢大家了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-9-17 17:28:16
软件没你想的那么智能,你需要把近似的改为一至的,建议把所有不重复的事务所找出来,然后人工把近似的统一为一个名字,然后再计算
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-9-17 18:32:11
这样工作量很大,我的想法是生成一个相似度指标,然后对于相似度进行手工调整,可能比较有效,不知道stata有没有这类内容相似度的比较命令
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-1-11 19:56:48
weizhoukkk 发表于 2014-9-17 18:32
这样工作量很大,我的想法是生成一个相似度指标,然后对于相似度进行手工调整,可能比较有效,不知道stata有 ...
请问这个问题您解决了么?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-1-17 17:44:21
以前帮一个朋友处理过类似的情况,但是很繁琐。所谓的相似度很难去界定,哪些字相同、多少百分比相同才算是相似?所以建议换个思路
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-6-4 17:45:40
这个可以有!
strdist {varname1|"string1"} {varname2|"string2"} [if] [in] [, generate(newvar) ]
jarowinkler varname1 varname2 [,generate(newvar) jaroonly(newvar) pwinkler(x) ]

这两个命令了解一下,不谢~!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群