全部版块 我的主页
论坛 计量经济学与统计论坛 五区 数据交流中心
4023 1
2019-05-29

                                                                                                                               本文转自 经管联盟 公众号!

我们拿到的很多数据源是非标准化的,字段名称不统一、字段结构不统一,等等。在进行数据分析前都要对数据进行标准化处理,以达到理想的数据状态,如工业企业数据库。

工业企业数据库的原始格式是mdb格式,即access数据库格式。由于该数据库每年样本量有几十万条,通过Excel来进行数据处理比较困难。另外,2003版Excel最大行数是65536行 ;2007版本最大行数是1048576行,无法存储大量数据,更不要说进行数据处理了。

工业企业数据库数据处理资料分享链接:

链接:

https://pan.baidu.com/s/1t78Cx3jdton91Ph1OBDqXg

提取码:cxdp

对工业企业数据库的处理:

1、将工业企业数据库里面的表导出成txt格式

1.png

2、用insheet命令导入到stata里面

复制代码

注:stata的变量名不能用中文,所有要预先制作一个变量英文映射表

3、对英文变量加上label

这里介绍Excel的两个公式

一个是vlookup,VLOOKUP函数是Excel中的一个纵向查找函数。由于各年公布的工业企业变量名称不完全一致。如工业中间投入这个指标,2006年公布的名称为中间投入合计,2007年公布的名称为工业中间投入合计。所有为了统一各年的名称,可以做一个名称标准表,然后通过vlookup公式查找对应的标准名称,这样对各年变量加label就会是统一的名称了。

另外一个公式是CONCATENATE,CONCATENATE 函数可将最多 255 个文本字符串合并为一个文本字符串。联接项可以是文本、数字、单元格引用或这些项的组合。工业企业数据库中总共有100多个字段,如果写100多个label var 会很麻烦。我们可以在Excel里面写一个label var 的公式,然后通过Excel往下拉,就能实现100多个label var 了,比写循环简单、实用。

4、各年数据合并,数据格式统一

由于数据统计不规范,转换后的数据格式不一定完全统一,如统一变量,有的年份是字符格式,有的年份是数字格式,这就需要统一化处理。

字符转数字,如:

复制代码

数字转字符,如:

复制代码

5、格式统一后,然后选择需要的变量进行合并处理

复制代码





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2019-5-31 06:43:41
j610f2012 发表于 2019-5-29 19:53
...
很有价值的分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群