请问stata有没有模糊分组的命令

653

收藏 2022-12-01

如题，就是比如按年份分组，就是by year，把年份相同的归为一组。但如果我想按股东名字分组，但是同一个股东可能名字的字符不太一样，比如北京市A公司，和北京A公司，北京A有限公司，这中模糊的情况如何把他们归为一组呢？手动整理工作量是在太大了。

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

2022-12-2 08:59:44

可以试试先生成一个新的变量，可以是企业简称，比如剔除市、省、自治区、有限公司等可能输入不一致的词。然后用新生成的变量分组

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-12-6 08:40:22

如果组名还比较规范，可以通过正则表达式
定义一个字符编码的相似性度量函数，然后“聚类”下，再手工的处理下，text analysis的的领域了。Python、R等都有现成的函数了，可以试一试。

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-12-9 17:24:05

感觉可以拆解为：
1.正则表达式构建相同的变量组
2.根据构建出的变量组再进行聚类或其他处理

其中，STATA中的正则表达式可以用 regexm(s,re) 以及 regexr(s1,re,s2)

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享