上市公司简称与全称的匹配求助

qiuyuke2

1658

收藏 2023-08-07

悬赏 30 个论坛币已解决

悬赏求助论坛各位朋友、老师、大佬们：

我现在手上有两组数据网盘和附件中的文件是相同的)

第一份数据

fulname.dta
大小:(9.48 MB)

马上下载

有 A 股上市公司或它们子公司的全称，第二份里面有他们的简称

shonam.dta
大小:(281.15 KB)

马上下载

。现在我想把他们两份数据匹配起来。例如：

全称(fulname.dta中的fullname变量)：1. 深汕特别合作区振业房地产开发有限公司 2. 深圳赛格股份有限公司
简称(shonam.dta中的shortname变量)： 1. 深赛格 2. 深振业

然后把两个文件相匹配，弄成：
深汕特别合作区振业房地产开发有限公司，深振业
深圳赛格股份有限公司，深赛格
这样匹配的形式。

我目前的想法是，可以把所有简称都分解，比如说“深振业”分解为“深”、“振”、“业”三个字，“深赛格”分解为“深”、“塞”、“格”等。对每一个公司全称，搜索所有简称，如果其包含某一个简称的所有字，就把这个简称匹配到这个全称后面，否则跳过这个全称。但是我不会用stata实现这个算法，所以想求问各位该如何用stata实现这个算法，或者如果有没有更好的思路？？

诚心求问！

求助匹配数据