悬赏求助论坛各位朋友、老师、大佬们:
我现在手上有两组数据网盘和附件中的文件是相同的)
第一份数据
有 A 股上市公司或它们子公司的全称,第二份里面有他们的简称
。现在我想把他们两份数据匹配起来。 例如:
全称(fulname.dta中的fullname变量):1. 深汕特别合作区振业房地产开发有限公司 2. 深圳赛格股份有限公司
简称(shonam.dta中的shortname变量): 1. 深赛格 2. 深振业
然后把两个文件相匹配,弄成:
深汕特别合作区振业房地产开发有限公司,深振业
深圳赛格股份有限公司,深赛格
这样匹配的形式。
我目前的想法是,可以把所有简称都分解,比如说“深振业”分解为“深”、“振”、“业”三个字,“深赛格”分解为“深”、“塞”、“格”等。对每一个公司全称,搜索所有简称,如果其包含某一个简称的所有字,就把这个简称匹配到这个全称后面,否则跳过这个全称。但是我不会用stata实现这个算法,所以想求问各位该如何用stata实现这个算法,或者如果有没有更好的思路??
诚心求问!