用python爬取和讯网企业责任数据

3891

收藏 2019-08-28

最近需要用到和讯网站的企业评分数据因为手动复制数据太麻烦，决定写一个python程序把数据爬下来
数据原始网址：http://stockdata.stock.hexun.com/zrbg/Plate.aspx?date=2016-12-31

因为网站数据以动态网页的呈现的，所以直接通过访问内部json网页：
http://stockdata.stock.hexun.com/zrbg/data/zrbList.aspx?date=2016-12-31&count=20&pname=20&titType=null&page=2&callback=hxbase_json11566981293480
，通过解析json格式文件的方式获取相关数据并保存下来
结果的dta格式如下：

以下为代码与爬虫结果；因为论坛不支持py格式文件，下载到本地之后将文件后缀改为py，或是直接复制到python中运行即可

python爬取和讯网社会责任.txt
大小:(6.87 KB)

只需: RMB 29元马上下载

以下是爬取结果，为dta格式，可在stata中转为excel格式

和讯网社会责任报告.dta
大小:(1.22 MB)

只需: RMB 39元马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

yujituibian

2019-9-3 11:50:44

这个200元以内，你要了天价。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

dream1095

2019-9-3 19:22:11

yujituibian 发表于 2019-9-3 11:50
这个200元以内，你要了天价。

不好意思，下面这个链接失效了，但是不知道怎么删除，就标了一个很高的价格。在文章中上传的文件是40元

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

dream1095

2019-9-3 19:24:50

统一回复一下，因为上传的百度云盘的链接失效了，所以代码文件附在文中了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

Shinubiwhite

2019-12-23 18:17:20

想请问一下楼主，使用楼主分享的代码爬取数据的时候，为什么爬取到2011年71行之后就开始报错，之后就不能继续爬取了？
python 报错内容如下：
Traceback (most recent call last):
  File "C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 421, in _make_request
six.raise_from(e, None)
  File "<string>", line 3, in raise_from
  File "C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 416, in _make_request
httplib_response = conn.getresponse()
  File " C:….\Python\Python38\lib\http\client.py", line 1322, in getresponse
response.begin()
  File " C:….\Python\Python38\lib\http\client.py", line 303, in begin
version, status, reason = self._read_status()
  File " C:….\Python\Python38\lib\http\client.py", line 264, in _read_status
line = str(self.fp.readline(_MAXLINE + 1), "iso-8859-1")
  File " C:….\Python\Python38\lib\socket.py", line 669, in readinto
return self._sock.recv_into(b)
socket.timeout: timed out

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File " C:….\Python\Python38\lib\site-packages\requests\adapters.py", line 439, in send
resp = conn.urlopen(
  File " C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 719, in urlopen
retries = retries.increment(
  File " C:….\Python\Python38\lib\site-packages\urllib3\util\retry.py", line 400, in increment
raise six.reraise(type(error), error, _stacktrace)
  File " C:….\Python\Python38\lib\site-packages\urllib3\packages\six.py", line 735, in reraise
raise value
  File " C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 665, in urlopen
httplib_response = self._make_request(
  File " C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 423, in _make_request
self._raise_timeout(err=e, url=url, timeout_value=read_timeout)
  File " C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 330, in _raise_timeout
raise ReadTimeoutError(
urllib3.exceptions.ReadTimeoutError: HTTPConnectionPool(host='stockdata.stock.hexun.com', port=80): Read timed out. (read timeout=2)

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "<stdin>", line 7, in <module>
  File " C:….\Python\Python38\lib\site-packages\requests\api.py", line 75, in get
return request('get', url, params=params, **kwargs)
  File " C:….\Python\Python38\lib\site-packages\requests\api.py", line 60, in request
return session.request(method=method, url=url, **kwargs)
  File " C:….\Python\Python38\lib\site-packages\requests\sessions.py", line 533, in request
resp = self.send(prep, **send_kwargs)
  File " C:….\Python\Python38\lib\site-packages\requests\sessions.py", line 646, in send
r = adapter.send(request, **kwargs)
  File " C:….\Python\Python38\lib\site-packages\requests\adapters.py", line 529, in send
raise ReadTimeout(e, request=request)
requests.exceptions.ReadTimeout: HTTPConnectionPool(host='stockdata.stock.hexun.com', port=80): Read timed out. (read timeout=2)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

dream1095

2019-12-24 08:39:57

Shinubiwhite 发表于 2019-12-23 18:17
想请问一下楼主，使用楼主分享的代码爬取数据的时候，为什么爬取到2011年71行之后就开始报错，之后就不能继 ...

从报错上来看，是服务器在指定时间没有应答。您可以将原文件的cookie修改为自己电脑访问网页的cookie，再访问一次，这样也许能够解决问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群