wudizhao 发表于 2015-11-1 11:21 
对不起,我有点急,语气太鲁莽了,请您谅解!我只是觉得您的方法不好操作,按您的方法,怎样把数据里不需 ...
没关系。如果说比较相同的字数是基本的思路的话,我说的把不需要用来对应的删掉就是为了能更好的比较,即,把明显会重复并造成干扰的部分删掉。具体删什么不删什么得看你数据实际是什么样子的。
本来Stata处理文本并不是强项,更何况是中文(英文的话还可以考虑soundex)。能用别的软件匹配的话不要跟stata死磕。
你说的例子“万科企业股份有限公司”和“上海万科房地产集团有限公司”到底是属于该配对的还是不该配对的呢?比如一个集团控股的几家公司是要配对还是不配对?按什么标准决定?这些因素都要考虑。实在不行还是人工检查一下吧。