Python爬取中国土地市场网土地交易挂牌公告公示数据源代码
爬虫爬取爬取中国土地市场网-土地公告公示,使用redis数据库存储,分布式爬取列表详细信息。
使用Python开发,用到selenium
包含的代码大致如下:
.......
division = items.
find(
'span',
id=
"mainModuleContainer_1855_1856_ctl00_ctl00_p1_f1_r1_c2_ctrl").get_text()
info[
'行政区'] = division # 项目名称 prjname = items.
find(
'span',
id=
"mainModuleContainer_1855_1856_ctl00_ctl00_p1_f1_r17_c2_ctrl").get_text()
info[
'项目名称'] = prjname # 项目位置 location = items.
find(
'span',
id=
"mainModuleContainer_1855_1856_ctl00_ctl00_p1_f1_r16_c2_ctrl").get_text()
info[
'项目位置'] = location # 面积(公顷) square = items.
find(
'span',
id=
"mainModuleContainer_1855_1856_ctl00_ctl00_p1_f1_r2_c2_ctrl").get_text()
info[
'面积'] = square # 土地用途 purpose = items.
find(
'span',
id=
"mainModuleContainer_1855_1856_ctl00_ctl00_p1_f1_r3_c2_ctrl").get_text()
info[
'土地用途'] = purpose # 土地使用年限 tdsynx = items.
find(
'span',
id=
"mainModuleContainer_1855_1856_ctl00_ctl00_p1_f1_r19_c2_ctrl").get_text()
info[
'土地使用年限'] = tdsynx # 土地级别 tdjb = items.
find(
'span',
id=
"mainModuleContainer_1855_1856_ctl00_ctl00_p1_f1_r20_c2_ctrl").get_text()
info[
'土地级别'] = tdjb # 分期支付约定支付期号 ...... # 分期支付约定约定支付日期 ...... # 土地使用权人 .......
# 约定容积率下限 ydrjxx = items.find( 'span
', id="mainModuleContainer_1855_1856_ctl00_ctl00_p1_f2_r1_c2_ctrl").get_text() info['约定容积率下限
'] = ydrjxx # 约定容积率上限 ydrjsx = items.find( 'span
', id="mainModuleContainer_1855_1856_ctl00_ctl00_p1_f2_r1_c4_ctrl").get_text() info['约定容积率上限
'] = ydrjsx # 约定开工时间 kgtime = items.find( 'span
', id="mainModuleContainer_1855_1856_ctl00_ctl00_p1_f1_r22_c2_ctrl").get_text() info['约定开工时间
'] = kgtime # 实际开工时间 sjkgtime = items.find( 'span
', id="mainModuleContainer_1855_1856_ctl00_ctl00_p1_f1_r10_c2_ctrl").get_text() info['实际开工时间
'] = sjkgtime # 批准单位 pzdw = items.find( 'span
', id="mainModuleContainer_1855_1856_ctl00_ctl00_p1_f1_r14_c2_ctrl").get_text() info['批准单位
'] = pzdw # 用唯一值的电子监管号当key, 所需信息当value的字典 ........ # 土地来源 .....