1.爬虫本爬虫使用python,用到的包有requests, bs4, pandas, re。代码逻辑没有加入多线程多进程异步等加快速度,目的是防止ip被ban,这个地方见仁见智。整套爬下来要快一天的时间,和目标网站的速度也有关系。
2.数据
数据包括概览页数据和详情页数据两个部分。
概览页:http://stockdata.stock.hexun.com/zrbg/Plate.aspx?date=2019-12-31。这个网页要爬下来是有点东西的,因为是异步加载,不能直接获取网页源码来分析,所有的字段都有。
详情页:http://stockdata.stock.hexun.com/zrbg/stock_bg.aspx?code=000402&date=2019-12-31详情页就没有异步加载了,可以通过直接获取网页源码来分析。但是最难的地方就是繁琐了,极其繁琐,字段很多所以要做很多重复工作。
关系:需要先获取概览页的证券代码,然后才能组成URL爬取详情页,所以代码逻辑是先爬概览页,这个很快几分钟就好了,然后拿到证券代码后再爬详情页。
3.价格
代码30元,代码和10年数据打包50元,个别年份购买按照下面方式联系
4.爬虫定制
站内或短信联系1789⑦899⑤39
详情页字段(也可在附件中下载免费样本):
stkcd
评级得分
行业整体评级得分
全市场整体评级得分
行业内得分排名
全市场得分排名
股东责任
盈利
净资产收益率
总资产收益率
主营业务利润率
每股收益
每股未分配利润
成本费用利润率
偿债
速动比率
流动比率
现金比率
股东权益比率
资产负债率
回报
分红融资比
股息率
分红占可分配利润比
信批
交易所对公司和相关责任人处罚次数
创新
产品开发支出
技术创新理念
技术创新项目数
员工责任
绩效
职工人均收入
员工培训
安全
安全检查
安全培训
关爱员工
慰问意识
慰问人
慰问金
供应商、客户和消费者权益责任
产品质量
质量管理意识
质量管理体系证书
售后服务
客户满意度调查
诚信互惠
供应商公平竞争
反商业贿赂培训
环境责任
环境治理
环保意识
环境管理体系认证
环保投入金额
排污种类数
节约能源种类数
社会责任
贡献价值
所得税占利润总额比
公益捐赠金额
201x-12-31-csr.xlsx 指的是概览页;201x-12-31.xlsx指的是详情页。