全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 统计软件培训班VIP答疑区
3040 2
2012-12-23

有一变量,本为数值型,但其中包含了几个记录为非数值型,如+|,因此,转入stata中,整个变量被定义为字符型。如果数据量非常大,通过肉眼基本上无法完全识别哪些记录中含有非数值的记录,即可能还含有其它比较奇怪的记录,如#¥等,如何通过程序来查找?最终将该变量其变成数值型变量?


您上次在问题中建议逐一识别,但如果数据量非常巨大,逐一检查的效率是很低的,有没有相关的程序来处理。


我还发现有些记录为空格,但我不确定其为几个空格,如何将其统一改成"."缺省值?

stata对记录为空格与"."的处理方式有何差别?


谢谢。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2012-12-25 23:48:26
第一个问题,stata 初级班有详细介绍。
help destring
重点看看 ignore() 选项。
给个 Stata 初级视频中的例子:
destring code,     gen(code1) ignore(" ")

如果原始变量是数值型的,则空格在导入过程中会被自动识别为缺漏值。
看你的情况,原始变量是文字型的,那就需要处理一下。

总体而言,你可以尝试如下命令(手头没有数据,只是大概的命令,还需你仔细斟酌一下):
destring x, gen(x1) ignore("+,| ")
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-12-26 02:37:35
thanks.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群