全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
17072 51
2021-03-16
更新(强烈推荐)!
数据:2000-2021中国土地交易数据(包含全部爬虫代码)
爬虫软件:Stata16(提供爬虫代码)
来源:中国土地市场网
网址:https://www.landchina.com/
截止日期:2021年3月1日
观测值:275万+
变量:27终于处理完了,太不容易了!这个数据量实在是太大了!很多人觉得 Stata 的爬虫能力弱,其实不然,中国土地市场网的数据就不太容易,有相对强大的反爬机制,请求模式是 post ,想用 copy 命令的小伙伴赶紧放弃吧!那么,如何爬取这套275万多的数据呢?网站只提供前 200 页,如何爬取完整的数据呢?单一的 cookie 爬取太多页以后会触动反爬,又要如何应对呢?可以好好学习一下代码,当然这里用到了 curl ,不太熟悉的小伙伴建议先百度找一下相关内容简单学习一下。在代码中,我也是加了非常多的注释便于大家理解。当然,并不是所有小伙伴都对爬虫代码感兴趣,如果向直接获取数据也是可以的!为了让大家更好地了解数据,在附件中提供了示例数据(根据总观测值抽样不到5%,大概又12万+观测值),大家可以免费下载。
网址展示.png
具体文件说明如下(完整的附件包含如下内容,如果只需要数据,则只包含2和3):
1.Chinaland文件夹中的子文件夹均为爬取过程生成的文件夹
2.最终数据:2000-2021土地交易最终数据(含经纬度).dta
3.分数据(防止大家的电脑内存不够用)
(1)2000-2009土地交易数据(含经纬度).dta
(2)2010-2015土地交易数据(含经纬度).dta
(3)2016-2021土地交易数据(含经纬度).dta
4.爬虫代码
(1)Chinaland2021.do——爬取第一层数据代码(主要为了获取每条信息的网址链接)
(2)Chinaland_detail2021.do——爬取第二层数据代码(明细数据)
为了节省空间,爬取过程中生成的数据都删去了,大家还是主要根据代码学习,如果单进程完整的爬取的话,需要两个月(当然,多个电脑多个进程同时爬会成倍提高效率)
各年观测值数量:
------------+----------------------------------------
       年份 |      Freq.     Percent        Cum.
------------+----------------------------------------
       2000 |      1,298        0.05        0.05
       2001 |      2,987        0.11        0.16
       2002 |     18,128        0.66        0.81
       2003 |     25,545        0.93        1.74
       2004 |     58,618        2.13        3.87
       2005 |     44,298        1.61        5.48
       2006 |     60,794        2.21        7.69
       2007 |    143,490        5.21       12.90
       2008 |    118,489        4.30       17.20
       2009 |    140,851        5.12       22.32
       2010 |    179,896        6.53       28.85
       2011 |    203,599        7.39       36.24
       2012 |    195,572        7.10       43.35
       2013 |    228,396        8.29       51.64
       2014 |    183,732        6.67       58.31
       2015 |    163,943        5.95       64.27
       2016 |    150,336        5.46       69.73
       2017 |    157,541        5.72       75.45
       2018 |    215,062        7.81       83.26
       2019 |    209,712        7.62       90.87
       2020 |    224,505        8.15       99.03
       2021 |     26,768        0.97      100.00
------------+----------------------------------------
      Total |  2,753,560      100.00

------------+----------------------------------------
2021年截止到3月1日,所以少了一些,大家还可以根据代码接着爬取
包含变量说明:
序号变量
1年份
2电子监管号
3所在省份
4所在城市
5所在区县
6经度
7纬度
8项目名称
9项目位置
10面积(公顷)
11土地来源
12土地用途
13供地方式
14土地使用年限
15行业分类
16土地级别
17成交价格(万元)
18土地使用权人
19约定容积率下限
20约定容积率上限
21约定交地时间
22约定开工时间
23约定竣工时间
24批准单位
25合同签订日期
26地址
27链接

2000-2021土地交易数据
大小:(76 Bytes)

只需: RMB 168元  马上下载




2020年中国出让土地分布.png 2021年中国出让土地分布.png
代码展示.png





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2021-3-17 10:25:16
更新数据集集锦
1.(更新)1990-2019年中国上市公司数据(最全!1130个变量,含数据处理)
https://bbs.pinggu.org/thread-9401341-1-1.html
2.(更新)2003-2019中国上市公司公司治理和股权性质数据(126个变量)
https://bbs.pinggu.org/thread-9432575-1-1.html
3.(更新)2000-2019中国上市公司盈余管理数据(含处理过程)
https://bbs.pinggu.org/thread-9417872-1-1.html
4.(更新)中国上市公司基本信息(含所在省市及行政代码经纬度)
https://bbs.pinggu.org/thread-9418143-1-1.html
5.(更新)1990-2020中国上市公司人物特征(含处理过程)
https://bbs.pinggu.org/thread-9363631-1-1.html
6.(更新)2010-2019和讯网上市公司社会责任报告(含代码)
https://bbs.pinggu.org/thread-9538071-1-1.html
7.(更新)2010-2019和讯网上市公司社会责任报告明细(含代码)
https://bbs.pinggu.org/thread-9550203-1-1.html
8.(更新)1995-2020中国上市公司并购重组数据(含代码)
https://bbs.pinggu.org/thread-9574519-1-1.html
9.【爬虫】1990-2020年中国上市公司高管简历(数据+代码)
https://bbs.pinggu.org/thread-10017058-1-1.html
10.(更新)1990-2019上市公司财务报表与指标季度数据(含代码)
https://bbs.pinggu.org/thread-10257876-1-1.html
11.【更新】上市公司基本资料(含数据处理和详细经纬度) 
https://bbs.pinggu.org/thread-10423733-1-1.html
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-3-17 13:53:09
zhaozimeng 发表于 2021-3-17 10:25
更新数据集集锦:
1.(更新)1990-2019年中国上市公司数据(最全!1130个变量,含数据处理)
http ...
2000-2021中国土地交易数据(含代码),也欢迎大家关注其他主题~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-3-20 09:40:48
zhaozimeng 发表于 2021-3-17 13:53
2000-2021中国土地交易数据(含代码),也欢迎大家关注其他主题~
土地交易的数据根据百度地图添加了经纬度,相对来说还是非常齐全的,275万+的数据仅有258个缺失值,当然,也可能出现一些解析错误,绝大多数还是靠谱的。另外,添加了土地对应的省、市、县,方便进一步计算平均值等指标或与其他数据合并。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-3-21 10:07:33
zhaozimeng 发表于 2021-3-20 09:40
土地交易的数据根据百度地图添加了经纬度,相对来说还是非常齐全的,275万+的数据仅有258个缺失值,当然, ...
顶一下下~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-3-23 12:13:31
zhaozimeng 发表于 2021-3-17 13:53
2000-2021中国土地交易数据(含代码),也欢迎大家关注其他主题~
很多小伙伴咨询坐标系的问题,这里统一回复一下:百度地图是百度BD-90经纬度坐标系,即GCJ-02基础上加密的结果;高德地图和谷歌地图在中国内地区域使用的坐标系是GCJ-02坐标系下的经纬度,两者会有一定的差异。本贴使用的坐标系是百度BD-90经纬度坐标系。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群