我觉得数据量特别大的话,可能要写代码了。
楼主要是把数据文件扔出来,我可以花些时间写代码。
我的思路是这样的:
1. 找到一个全国城市列表,比如http://data.acmr.com.cn/member/city/city_md.asp
2. 拆出省名,但是不带‘省’或“自治区”这些字,做成一列
3. 拆出市名,同样去掉“市”这个字
4. 然后写代码,对每一行数据的前若干字符(比如首30个无论无何都会包括地区信息)先用市列去比对。得到对中的市则保存下来,自动对应相应的省。
5. 如果市列没有比中,则去比省列,得到比中,则保存省名,并且标记此行数据市名没有比中。
6. 如果省列和市列都没有比中,则标记些行数据没有任何比中
7. 第5步和第6步得出的没有比中或者没有完全比中的数据行,进行人工提取。