每一个程序员都不可避免的遇到字符编码的问题,特别是做Web开发的程序员,“乱码问题”一直是让人头疼的问题,也许您已经很少遇到“乱码”问题,然而,对解决乱码的方法的内在原理,您是否明白?本人作为一个程序员,在字符编码方面同样遇到不少问题,而且一直对各种编码懵懵懂懂、不清不楚;在工作中也曾经遇到一个很烦人的编码问题。这两天在网上收集了大量编码方面的资料,对字符编码算是理解的比较清楚了。下面把我认为比较重要的知识点记录下来,一方面方便以后复习;另一方面也希望给跟我一样懵懵懂懂的人一个参考。不对或不妥之处,请批评指正。
=======================================================
| cd E:\Stata14\me ///打开Do文件所在文件夹 unicode analyze lu.do ////lu.do是要转换的Do文件 unicode encoding set gb18030 ///设定unicode translate命令所用的编码(标准),此处是 gb18030 unicode translate lu.do ///对目标文件执行转码 =================================================== 数据统计服务中心的博客 http://blog.sina.com.cn/s/blog_8f6ff2310102w464.html STATA14.0正常显示12和13版本的DO文件和数据库的命令 2015-10-06 00:11:49 一、DO文件 stata14以前的do文件如果含有中文,用stata14打开时会乱码,需要进行转码,操作过程如下: clear cd d:\对应目录 unicode analyze *.do unicode encoding set gbk unicode translate *.do 二、数据库 clear unicode encoding set GB2312 unicode analyze *.dta unicode encoding set gbk unicode translate *.dta |
不久前遇到一位朋友,诉说使用 Stata 14 出现中文乱码,而不得不退而使用更低版本的 Stata 的烦恼。其实,这只是因为 Stata 14 使用了 Unicode(统一码、万国码)。
何为 Unicode?根据百度百科的解释,“Unicode 是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求”。
简而言之,Unicode 使得跨语言交流变得更为方便精准。但这也意味着,Stata 14 引入 Unicode 之后,在 Stata 文件中(dta,do,ado 文件等),使用中文输入的字符就会出现乱码。解决方法也不难,只要进行适当的编码翻译(unicode translate)即可,即使用 Stata 14 提供的 unicode 系列命令,将中国大陆通行的国标码(GB18030)翻译为统一码。
正好手头有个关于中国姓氏人口的数据集出现了中文乱码,故截取部分变量的前10个观测值作为演示例子。首先,打开此数据集 surname_test.dta。
. use surname_test.dta, clear
点击数据编辑器 “Data Editor (Browse)” 的快捷键,查看数据:

可以看出,上表的最后一列,变量 character(中文姓氏)出现了乱码,无法正确显示。在使用 Stata 14 命令 unicode 进行编码时,内存中不能有数据,故先删除数据。
. clear
然后,将需要编码的文件(在此为 surname_test.dta),放入当期工作路径(current working directory),通常在Stata的左下角显示。
也可使用命令pwd(path of working directory)来显示当期工作路径。或使用命令cd(change directory)将当期工作路径改为文件 surname_test.dta 所在的位置,详见“help cd”。
. pwd
C:\Program Files (x86)\Stata14

接下来,使用命令 unicode analyze 分析数据集 surname_test.dta 是否需要编码翻译。
. unicode analyze surname_test.dta

结果显示,有一个字符串变量需要编码翻译(1 str# variable needs translation)。为此,将编码设为国标码(GB18030),再进行翻译。
. unicode encoding set gb18030
(default encoding now gb18030)
. unicode translate surname_test.dta
(using gb18030 encoding)

结果显示,此文件已编码翻译成功。再次打开此数据集,并通过数据编辑器 “Data Editor (Browse)” 查看:
. use surname_test.dta,clear
![]()
上表已能正确显示中国人口最多的十大姓氏依次为:王、李、张、刘、陈、杨、黄、赵、周、吴。相信朋友可以安心使用 Stata 14 了。
扫码加好友,拉您进群



收藏
