全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2938 3
2017-07-28
写论文的过程中,找数据是非常重要的一环,查找一手数据是比较好的,一般通过各种统计年鉴获取,因为可以看到各种数据的情况说明,包括统计口径等,而一些二手数据平台虽然方便快捷,然而存在数据口径不一甚至单位错误的问题。
以知网中国经济社会发展统计数据库为例,查找数据很方便
数据库.png
然而查找到的数据却存在统计口径不一的问题,因为它搜索的统计数据库实在是太多了,
搜狗截图20170728130012.png
而且通过下载对比之后,我发现表格上显示的内容跟原始统计年鉴上的数据情况不一致,比如我找的进出口数据,在表格中单位是万美元,但是下载了统计年鉴上的数据发现其单位是亿元人民币,这会导致数据收集存在巨大的问题。
还有一点缺陷就是,这个数据库能搜到的某一年鉴中的数据,可能不全,就是说,你在表格中选定了某一来源的数据,比如说来源于中国统计年鉴的进出口数据,可能只能显示到1998年,但是你自己实际去下载原数据后会发现,1999~2015年的数据也是可得的,这又会给数据搜集的工作造成困扰。

最后,我推荐的使用方法是通过这个数据库进行数据搜集排查工作,了解某个你需要的数据在哪个年鉴当中,然后去年鉴中下载,同时要看清楚该数据的说明,这才能保证数据的真实和准确性。

我今天使用这个数据库就发现《中国统计年鉴》和《新中国五十年统计资料汇编》的数据存在较大出入,我真的很纠结,中国数据的问题真的是困扰学术研究的大问题啊。

大家还有什么好的搜集数据的方法么?欢迎留言分享。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-7-28 20:16:33
specialv 发表于 2017-7-28 13:06
写论文的过程中,找数据是非常重要的一环,查找一手数据是比较好的,一般通过各种统计年鉴获取,因为可以看 ...
又仔细看了一下,单位是万美元,但是同样的单位,数字却相差好几个数量级,不知道该用哪一个数据了。这是中国数据的普遍问题么?如果真的是这样,必然有问题,也必然会有人用过错误的数据,用错误的数据进行分析,即使得出了某个结论,又有什么意义呢?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-7-29 10:26:49
今天又下载了各省份的统计年鉴进行对比,发现新中国统计资料汇编的数据来自于各省统计年鉴的整理,然后昨天发现数量级的不同原因是,新中国五十年统计资料汇编在统计的时候出现了单位换算错误,少加了4个零,不过数字是一样的,然后《中国统计年鉴》的统计口径跟省际统计年鉴不同,数字有部分出入,但是数量级一致。由于中国统计年鉴的使用频率更高,而且全国的统一性更高,所以使用中国统计年鉴作为基准,缺少的年份使用各省统计年鉴和新中国统计资料汇编进行补充,并且后两者的数据会相互对比检查数据错误。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-2-22 21:30:28
我也发现这个问题了,而且部分数据显示不出来源
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群