全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
3891 6
2019-08-28
最近需要用到和讯网站的企业评分数据因为手动复制数据太麻烦,决定写一个python程序把数据爬下来
数据原始网址:http://stockdata.stock.hexun.com/zrbg/Plate.aspx?date=2016-12-31


因为网站数据以动态网页的呈现的,所以直接通过访问内部json网页:
http://stockdata.stock.hexun.com/zrbg/data/zrbList.aspx?date=2016-12-31&count=20&pname=20&titType=null&page=2&callback=hxbase_json11566981293480
,通过解析json格式文件的方式获取相关数据并保存下来
结果的dta格式如下:
和讯网社会责任爬取结果.png


以下为代码与爬虫结果;因为论坛不支持py格式文件,下载到本地之后将文件后缀改为py,或是直接复制到python中运行即可
python爬取和讯网社会责任.txt
大小:(6.87 KB)

只需: RMB 29元  马上下载


以下是爬取结果,为dta格式,可在stata中转为excel格式
和讯网社会责任报告.dta
大小:(1.22 MB)

只需: RMB 39元  马上下载




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2019-9-3 11:50:44
这个200元以内,你要了天价。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-9-3 19:22:11
yujituibian 发表于 2019-9-3 11:50
这个200元以内,你要了天价。
不好意思,下面这个链接失效了,但是不知道怎么删除,就标了一个很高的价格。在文章中上传的文件是40元
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-9-3 19:24:50
统一回复一下,因为上传的百度云盘的链接失效了,所以代码文件附在文中了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-12-23 18:17:20
想请问一下楼主,使用楼主分享的代码爬取数据的时候,为什么爬取到2011年71行之后就开始报错,之后就不能继续爬取了?
python 报错内容如下:

Traceback (most recent call last):
  File "C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 421, in _make_request
    six.raise_from(e, None)
  File "<string>", line 3, in raise_from
  File "C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 416, in _make_request
    httplib_response = conn.getresponse()
  File " C:….\Python\Python38\lib\http\client.py", line 1322, in getresponse
    response.begin()
  File " C:….\Python\Python38\lib\http\client.py", line 303, in begin
    version, status, reason = self._read_status()
  File " C:….\Python\Python38\lib\http\client.py", line 264, in _read_status
    line = str(self.fp.readline(_MAXLINE + 1), "iso-8859-1")
  File " C:….\Python\Python38\lib\socket.py", line 669, in readinto
    return self._sock.recv_into(b)
socket.timeout: timed out

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File " C:….\Python\Python38\lib\site-packages\requests\adapters.py", line 439, in send
    resp = conn.urlopen(
  File " C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 719, in urlopen
    retries = retries.increment(
  File " C:….\Python\Python38\lib\site-packages\urllib3\util\retry.py", line 400, in increment
    raise six.reraise(type(error), error, _stacktrace)
  File " C:….\Python\Python38\lib\site-packages\urllib3\packages\six.py", line 735, in reraise
    raise value
  File " C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 665, in urlopen
    httplib_response = self._make_request(
  File " C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 423, in _make_request
    self._raise_timeout(err=e, url=url, timeout_value=read_timeout)
  File " C:….\Python\Python38\lib\site-packages\urllib3\connectionpool.py", line 330, in _raise_timeout
    raise ReadTimeoutError(
urllib3.exceptions.ReadTimeoutError: HTTPConnectionPool(host='stockdata.stock.hexun.com', port=80): Read timed out. (read timeout=2)

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "<stdin>", line 7, in <module>
  File " C:….\Python\Python38\lib\site-packages\requests\api.py", line 75, in get
    return request('get', url, params=params, **kwargs)
  File " C:….\Python\Python38\lib\site-packages\requests\api.py", line 60, in request
    return session.request(method=method, url=url, **kwargs)
  File " C:….\Python\Python38\lib\site-packages\requests\sessions.py", line 533, in request
    resp = self.send(prep, **send_kwargs)
  File " C:….\Python\Python38\lib\site-packages\requests\sessions.py", line 646, in send
    r = adapter.send(request, **kwargs)
  File " C:….\Python\Python38\lib\site-packages\requests\adapters.py", line 529, in send
    raise ReadTimeout(e, request=request)
requests.exceptions.ReadTimeout: HTTPConnectionPool(host='stockdata.stock.hexun.com', port=80): Read timed out. (read timeout=2)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2019-12-24 08:39:57
Shinubiwhite 发表于 2019-12-23 18:17
想请问一下楼主,使用楼主分享的代码爬取数据的时候,为什么爬取到2011年71行之后就开始报错,之后就不能继 ...
从报错上来看,是服务器在指定时间没有应答。您可以将原文件的cookie修改为自己电脑访问网页的cookie,再访问一次,这样也许能够解决问题。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群