全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
4104 5
2017-08-12
前段时间清理过一个数据集,发现其中城市名称的字符型变量里面包含一些“肉眼不可见”的乱码,表现为虽然字符两边有一些“空格”,但是用trim() 命令却无法删除,具体情况可以参见statalist上面的一个邮件。根据邮件上的信息,我试图采用下面的方法识别和清楚字符中的乱码

. charlist city


&'().01?ABCDEGHIJKLMNPQSTUWXYZabcdeghijklnopqrstuwxyz?


. ret li


macros:

              r(chars) : "


&'().01?ABCDEGHIJKLMNPQSTUWXYZabcdeghijklnopqrs.."

           r(sepchars) : "


   &' ( ) . 0 1 ? A B C D E G H I J K L M N P .."

              r(ascii) : "10 13 32 38 3940 41 46 48 49 63 65 66 67 68 69 71.."

and

replace city = subinstr(city, "`=char(10)'", "",.)

replace city = subinstr(city, "`=char(32)'", "",.)

replace city = subinstr(city, "`=char(161)'`=char(161)'","",.)



但是,最近我需要讲这个stata13格式的数据转换成stata14格式的,采用的是unicode translate命令,但是转换后发现城市名字符变成了一个个小方块,如下图。
QQ截图20170810231045.png

诡异的是,即使我没有采用上面的方式清除那些 不可见的乱码,转换后仍然是同样的方块乱码,所以我不能100%确定这个问题的来源。数据样本见附件。望各位老师帮我看一下,问题出在哪里,多谢
复制代码








citynames.dta
大小:(3.83 KB)

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-8-12 18:09:59
用stata14打开以前stata13的数据中文乱码怎么处理? - Stata专版 - 经管之家(原人大经济论坛)  https://bbs.pinggu.org/thread-4901374-1-1.html
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-8-12 18:19:54
数据呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-8-13 22:01:13
数据样本已附上
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-8-27 22:52:54
关注一下
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-7-27 12:52:33
cd D:\chinaprovimap
unicode encoding set gb18030
unicode analyze china_data.dta
unicode translate china_data.dta
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群