全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
608 3
2022-12-01
如题,就是比如按年份分组,就是by year,把年份相同的归为一组。但如果我想按股东名字分组,但是同一个股东可能名字的字符不太一样,比如北京市A公司,和北京A公司,北京A有限公司,这中模糊的情况如何把他们归为一组呢?手动整理工作量是在太大了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-12-2 08:59:44
可以试试先生成一个新的变量,可以是企业简称,比如剔除市、省、自治区、有限公司等可能输入不一致的词。然后用新生成的变量分组
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-12-6 08:40:22
如果组名还比较规范,可以通过正则表达式
定义一个字符编码的相似性度量函数,然后“聚类”下,再手工的处理下,text analysis的的领域了。Python、R等都有现成的函数了,可以试一试。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-12-9 17:24:05
感觉可以拆解为:
1.正则表达式构建相同的变量组
2.根据构建出的变量组再进行聚类或其他处理

其中,STATA中的正则表达式可以用 regexm(s,re) 以及 regexr(s1,re,s2)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群