中文字符转换到stata14后出现方块乱码

zlqs1985

4278

收藏 2017-08-12

前段时间清理过一个数据集，发现其中城市名称的字符型变量里面包含一些“肉眼不可见”的乱码，表现为虽然字符两边有一些“空格”，但是用trim() 命令却无法删除，具体情况可以参见statalist上面的一个邮件。根据邮件上的信息，我试图采用下面的方法识别和清楚字符中的乱码

. charlist city

&'().01?ABCDEGHIJKLMNPQSTUWXYZabcdeghijklnopqrstuwxyz?

. ret li

macros:

r(chars) : "

&'().01?ABCDEGHIJKLMNPQSTUWXYZabcdeghijklnopqrs.."

r(sepchars) : "

&' ( ) . 0 1 ? A B C D E G H I J K L M N P .."

r(ascii) : "10 13 32 38 3940 41 46 48 49 63 65 66 67 68 69 71.."

and

replace city = subinstr(city, "`=char(10)'", "",.)

replace city = subinstr(city, "`=char(32)'", "",.)

replace city = subinstr(city, "`=char(161)'`=char(161)'","",.)

但是，最近我需要讲这个stata13格式的数据转换成stata14格式的，采用的是unicode translate命令，但是转换后发现城市名字符变成了一个个小方块，如下图。

诡异的是，即使我没有采用上面的方式清除那些不可见的乱码，转换后仍然是同样的方块乱码，所以我不能100%确定这个问题的来源。数据样本见附件。望各位老师帮我看一下，问题出在哪里，多谢

复制代码

citynames.dta
大小:(3.83 KB)

马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

月宫里的白兔

2017-8-12 18:09:59

用stata14打开以前stata13的数据中文乱码怎么处理？ - Stata专版 - 经管之家(原人大经济论坛) https://bbs.pinggu.org/thread-4901374-1-1.html

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

deem

2017-8-12 18:19:54

数据呢？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zlqs1985

2017-8-13 22:01:13

数据样本已附上

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

peyzf

2017-8-27 22:52:54

关注一下

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

米高兄弟

2019-7-27 12:52:33

cd D:\chinaprovimap
unicode encoding set gb18030
unicode analyze china_data.dta
unicode translate china_data.dta

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群