本帖根据财政部PPP中心全国PPP综合信息平台项目管理库披露数据进行整理,截止时间为2020年12月31日,样本量为99970。
https://www.cpppc.org:8082/inforpublic/homepage.html#/searchresult        
 本帖之所以称为超强数据整合,是因为其他爬虫或者手动收集的数据,不涵盖执行阶段“项目公司名称名称/社会资本方名称”、“项目公司成立时间/社会资本方成立时间”、“项目公司注册资金/社会资本方注册资金”、“已融资金额”和“已融资次数”这几个字段,因为这几个字段在执行阶段的项目的“执行阶段选项卡”中,不便于爬取,但融资信息对于了解项目进度非常重要,合资方信息也十分关键。如下图所示。
 
 
    此外,非执行阶段的基础字段,本帖也非常全面,包括项目名、发起时间、所在省、所在市、所在县、项目总投资、回报机制、项目概况、运作方式、所属行业、所处阶段、合作期限(年)、采购方式。可使用地区变量筛选地区。使用所属行业筛选行业,行业变量细化到子行业,如“市政工程-污水处理”。可使用所处阶段筛选出准备阶段、采购阶段还是执行阶段,其中准备阶段和采购阶段的项目上述的执行阶段字段为空,执行阶段项目数6871个。样本如下所示。
 
     爬取不易,部分爬虫代码如下所示,真实性请大家放心。
 
多谢大家的支持,有问题可以留言问询。