我有两个数据集 A 和 B A

| year | X | X1 |
2000 | 山东省鲁能 | a |
2001 | 北京电子 | b |
2002 | 深圳市北海轮胎 | g |
2003 | 海天酱油武汉 | f |
数据集B
| year1 | Y | Y1 |
2000 | 山东鲁能 | 2 |
2001 | 古古怪怪 | 3 |
2002 | 北海轮胎深圳 | 5 |
2003 | 跳跳糖条 | 6 |
我想得到数据集C 如下:
| year | X | X1 | year1 | Y | Y1 |
| 2000 | 山东省鲁能 | a | 2000 | 山东鲁能 | 2 |
| 2002 | 深圳市北海轮胎 | g | 2002 | 北海轮胎深圳 | 5 |
| 2001 | 北京电子 | b | . | . | . |
| 2003 | 海天酱油武汉 | f | . | . | . |
请问如何实现啊?
其实这个问题 有两步关键:第一步:删除“省” “市” 这样的字符
第二步:模糊匹配 也就是说 变量 X 和变量Y 中的汉字一样但是前后顺序不同仍视为 相等
谁能给解决一步也行啊,各位达人 求赠命令 O(∩_∩)O谢谢