如何在stata14中用unicode命令转换不可识别的变量标签？

50874

收藏 2015-07-30

我在STATA14中打开一个数据文件，结果是乱码。然后我用unicode analyze 对其进行分析，结果说该文件需要进行 unicode translate。于是用该命令对其进行转换，结果出现如下结果：
2 variable labels okay, ASCII
      0 variable labels okay, already UTF-8
   239 variable labels cannot be translated
   all str# variables okay, ASCII
      --------------------------------------------------------------------------------------
      File not translated because it contains unconvertable characters;
         you might need to specify a different encoding, but more likely you need to run
         unicode translate with the invalid option

  File 000004.dta still needs translation

  File summary:
   all files not translated because they contain unconvertable characters;
         you might need to specify a different encoding, but more likely you need to run
         unicode translate with the invalid option
结果是说所有文件都没被转换，原因是包含不可转换的字母。如果添加invalid选项，那么所有标签仍然是怪异的符号。请路过的高人指点一下，原因何在？谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

adamesky

2015-7-30 14:16:44

这个问题我自己已经解决。关键是要设对需要转换文件的原始编码类型。例如，如果原始数据中变量标签为中文，用stata14打开时，变量标签无法识别。此时，需要设定编码类型。命令为 unicode encoding set gb18030，即设定编码类型为国标18030，即简体中文。然后，用unicode analyze filename.dta 分析文件是否需要转换，如结果为需要，那么继续用unicode translate filename.dta来转换数据文件中不可识别的中文汉字。成功以后，原始数据中不能识别的中文则可以在stata14中识别了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

offandon

2015-9-26 11:53:04

adamesky 发表于 2015-7-30 14:16
这个问题我自己已经解决。关键是要设对需要转换文件的原始编码类型。例如，如果原始数据中变量标签为中文， ...

楼主，问下分析完如何从14的do文档修改为13可以看的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

蓝色

2015-9-26 21:53:32

stata13变成stata14现在可以实现
反过来不行

所以，如果要有14就全部用stata14
不要stata13和stata14混用

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingyun1688

2015-12-12 17:50:12

adamesky 发表于 2015-7-30 14:16
这个问题我自己已经解决。关键是要设对需要转换文件的原始编码类型。例如，如果原始数据中变量标签为中文， ...

楼主，问一下，如果是变量中的中文怎么办? 如国家名什么的谢谢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

caesarljs

2016-1-23 22:13:35

cd "D:\long term care\CHARLS\stata\data\household_and_community_questionnaire_data" 【先设置你的working directory】unicode analyze psu.dta (Directory ./bak.stunicode created; please do not delete) File summary (before starting): 1 file(s) specified 1 file(s) to be examined ... File psu.dta (Stata dataset) 2 str# variables need translation ---------------------------------------------------------------------------------------------------------- File needs translation. Use unicode translate on this file. File psu.dta needs translation File summary: 1 file(s) need translation【总结：Stata告诉你，你这个file需要转换】unicode encoding set "GB18030" (default encoding now GB18030)【这里是告诉Stata这数据本来的unicode encoding是怎么样的，我死活找不到CHARLS的unicode encoding，后来在国外网站说中文一般用GB18030都可以，就试了试。之前我还用过据说很常用的Windows-1252，但在这里没有用！！！】unicode retranslate psu.dta, transutf8 (using GB18030 encoding) File summary (before starting): 1 file(s) specified 1 file(s) to be examined ... File psu.dta (Stata dataset) all variable names translated all data labels translated all variable labels translated all value-label names translated all value-label contents translated all characteristic names translated all characteristic contents translated all str# variables translated ---------------------------------------------------------------------------------------------------------- File successfully translated File summary: all files successfully translated【这里就是让Stata把数据转换为支持中文的UTF-8，转换完毕后，检查数据，中文终于不是乱码了，大功告成！】如果要一次性搞定不止多个数据库，也可以尝试：unicode analyze *unicode encoding set "GB18030"unicode retranslate *, transutf8这样你working directory里的所有数据库都被一次性转换完成了。如果出了问题，也没有关系。反正转换完成之后，还可以使用以下命令来恢复或者调整。unicode restore filespec 或者unicode retranslate filespec

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

caesarljs

2016-1-23 22:14:26

应该完美解决你的问题了
不过显示感觉有点不是很好

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wanjun_fall2008

2016-3-1 09:21:27

set gb18030
还是解决不了，encoding list那么长，怎么办。
一个变量转换不了，整个就转换不了。

附件列表

[B6X@%(CJJV_@FX9$T$@OPO.png

原图尺寸 22.17 KB

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wanjun_fall2008

2016-3-1 09:37:46

使用了一个选项 invalid(mark),可以解决，貌似不影响。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zhaimulin

2016-3-1 18:54:54

wanjun_fall2008 发表于 2016-3-1 09:37
使用了一个选项 invalid(mark),可以解决，貌似不影响。

你好，我也遇到了相同的情况，说是有3个变量转换不了。请问你是怎么解决的啊?谢谢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

evesun

2016-3-2 06:40:34

zhaimulin 发表于 2016-3-1 18:54
你好，我也遇到了相同的情况，说是有3个变量转换不了。请问你是怎么解决的啊?谢谢

unicode retranslate CGSS2012.dta, invalid(mark)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zhaimulin

2016-3-2 11:02:38

evesun 发表于 2016-3-2 06:40
unicode retranslate CGSS2012.dta, invalid(mark)

谢谢，昨天网上试出来。我是翻译do文档。非常感谢~

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

adamesky

2016-3-7 22:19:20

xingyun1688 发表于 2015-12-12 17:50
楼主，问一下，如果是变量中的中文怎么办? 如国家名什么的谢谢

变量名为中文，STATA怎么能识别？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

txd2011又来了

2016-6-27 20:16:55

wanjun_fall2008 发表于 2016-3-1 09:37
使用了一个选项 invalid(mark),可以解决，貌似不影响。

感谢热情分享，我学习了，顶你。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wwsgg

2016-7-7 09:39:39

正解~我也是这么解决的~其实help里都能找到，而且写得很清楚。自己看看就明白了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

Trump_Li

2016-7-25 15:17:39

evesun 发表于 2016-3-2 06:40
unicode retranslate CGSS2012.dta, invalid(mark)

问题解决了，非常感谢。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

YED123

2016-9-7 11:03:09

蓝色发表于 2015-9-26 21:53
stata13变成stata14现在可以实现
反过来不行

大神，请问一下stata13怎么变成stata14啊？
具体情况是这样的，我的数据里有中文，有13和14的版本，想把他们merge到一起，但14的中文是unicode，saveold到13就变成乱码了，所以不知道应该怎么办，多谢指点

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

newfei188

2016-10-1 02:56:51

you are so great

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

caesarljs

2017-1-4 18:37:56

unicode analyze *
unicode encoding set gb18030
unicode translate *
运行一下应该就没有问题了（通配符可以换成具体的文件名），如果出现提示出现invalid，可以添加选项，unicode translate *,invalid

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

想飞的夹尾巴狗

2017-3-9 20:25:54

wanjun_fall2008 发表于 2016-3-1 09:21
set gb18030
还是解决不了，encoding list那么长，怎么办。
一个变量转换不了，整个就转换不了。

我目前也碰到这样的问题，请问你解决了吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

想飞的夹尾巴狗

2017-3-9 20:28:05

想飞的夹尾巴狗发表于 2017-3-9 20:25
我目前也碰到这样的问题，请问你解决了吗？

谢谢已解决

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

adamesky

2017-9-27 21:41:33

想飞的夹尾巴狗发表于 2017-3-9 20:25
我目前也碰到这样的问题，请问你解决了吗？

加 invalid 选项即可

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

有太阳诶

2018-1-24 23:58:53

wanjun_fall2008 发表于 2016-3-1 09:37
使用了一个选项 invalid(mark),可以解决，貌似不影响。

大神，请问valid选项要怎么使用呢？刚接触stata，不是很懂这个

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

raymondlrm

2018-1-27 02:25:21

unicode translate *,invalid 输入命令马上闪退，这是什么原因

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xingaier1996

2018-4-16 21:21:37

raymondlrm 发表于 2018-1-27 02:25
unicode translate *,invalid 输入命令马上闪退，这是什么原因

我也是闪退！请问找到方法了吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

zxined

2018-4-26 00:43:09

谢谢提问者和答题者

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

Nicccce1993

2018-5-6 15:01:12

caesarljs 发表于 2016-1-23 22:13
cd "D:\long term care\CHARLS\stata\data\household_and_community_questionnaire_data" 【先设置你的wo ...

太厉害了！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可怜飞燕倚新妆1

2018-5-24 13:43:49

我也遇到了这个问题，但是我加入选项invalid之后，我的stata14就显示已停止工作，有大大知道是怎么回事吗？拜谢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可怜飞燕倚新妆1

2018-5-24 13:55:14

raymondlrm 发表于 2018-1-27 02:25
unicode translate *,invalid 输入命令马上闪退，这是什么原因

您好，我也遇到同样的闪退问题，请问您解决了吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

dreamhour

2018-7-10 10:12:58

为什么总是显示停止工作呢？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群