全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
18784 24
2007-10-15
<p>请教,在数据录入完毕以后,一般对数据进行怎么样的整理和检验,以得到一个比较干净的数据?不需要方法,只是需要一些思路即可,谢谢</p>
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2007-10-15 08:56:00

看基本统计量,sum y x, d

做直方图,看看是否存在离群值, histogram x

做主要变量间的散点图,看看是否有非常离奇的结果出现,这通常也是离群值所致, scatter y x

以上可以初步搞定离群值的影响,如果想进一步处理,可以采用Winsorized缩尾处理:

winsor x, gen(x_w) p(0.01)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2007-10-15 09:28:00

谢谢仁兄,我再进一步探索一下:)

看来我是遇见一位高手和好心人了,能不能再请教一下假如我有两份由不同的人录入的数据库,而且数据量很大。如何通过STATA来验证这两个数据库中数据匹配的程度?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2007-10-15 09:42:00

看了仁兄的博客和在论坛的一些留言,很钦佩的。或许应该称呼老师的。

还有一问题就是我用stattransfer把excel表格转化成stata数据的时候,发现有些变量的值都缺失了,而且还是数值型变量,而大部分数据都好好的,不知道怎么回事?

还有就是我用复制粘帖直接从表格里粘到stata数据编辑窗口里时,每次最多只能粘600多变量就再也粘不上了。而且stata老是死,说内存不能读入,这又是怎么回事?

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2007-10-15 11:17:00

set memory 50m  (如果需要的话可以设的更大些,如100m)

至于你只能粘贴600个变量,可能与你的stata版本有关系,SE版比较宽容些,呵呵。

在把Excel表格中的数据粘贴入STATA之前,最好先粘贴到 .txt 文档中,以便去除Excel自带的一些格式,然后再粘贴到STATA中。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2007-10-15 11:18:00
以下是引用1xuewang在2007-10-15 9:28:00的发言:

谢谢仁兄,我再进一步探索一下:)

看来我是遇见一位高手和好心人了,能不能再请教一下假如我有两份由不同的人录入的数据库,而且数据量很大。如何通过STATA来验证这两个数据库中数据匹配的程度?

cf -- Compare two datasets

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群