200论坛币求助如何用R或者Python抓取同花顺网页数据

8360

收藏 2014-11-04

我想抓取部分的同花顺网页公开数据做一下数据挖掘方面的编程学习。但无奈同花顺上面的数据处理得很符合商业化要求，但却难以一次性全部获取。

我想请教高人能否用R或者Python来抓取下面这个同花顺网页的数据。这个数据有大概43页，最痛苦的地方还有在抓取时还要考虑将最右边的展开项中的股票也录入表中。最好将这43页的数据存在同一张EXCEL中，并以CSV保存。

下面是该数据表格的网页截图。网址在下方：

http://data.10jqka.com.cn/market/longhu/yyb/

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

马甲1号

2014-11-4 16:41:01

给你个python的, 有问题问我. 环境是windows上的sypder(python2.7), 需要pandas包,.
运行结果:

dataout.zip
大小:(2.43 KB)

马上下载

本附件包括：

dataout.csv

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wqf_cufe

2014-11-4 22:46:39

马甲1号发表于 2014-11-4 16:41
给你个python的, 有问题问我. 环境是windows上的sypder(python2.7), 需要pandas包,.
运行结果:

谢谢，辛苦啦，但是您这个只有第一页的数据。我想要的是当月那个选项里面的43页的数全部数据。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

马甲1号

2014-11-4 23:31:32

原来你要的是后面那个。。。那个其实都是些json，用循环搞不难。另外这个版本我在ubuntu上跑的，编码utf-8，乱码的话可能需要转码。

dataout.csv.zip
大小:(69.35 KB)

马上下载

本附件包括：

dataout.csv

wqf_cufe 发表于 2014-11-4 22:46
谢谢，辛苦啦，但是您这个只有第一页的数据。我想要的是当月那个选项里面的43页的数全部数据。

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wqf_cufe

2014-11-4 23:55:52

马甲1号发表于 2014-11-4 23:31
原来你要的是后面那个。。。那个其实都是些json，用循环搞不难。另外这个版本我在ubuntu上跑的，编码utf-8， ...

我刚才跑了你的程序一遍，出现了2个疑问。第一个是出现了2个failed，第二个是我改写你的写出路径，但是出错了，我想存到desktop上面。如下：

0
failed: 1

....

18
failed: 1

...

读出错误：
Traceback (most recent call last):
  File "/Users/johnhenry/Desktop/new program2.py", line 25, in <module>
dataout.to_csv('/Users/johnhenry/Desktop/dataout.csv')
  File "/Library/Python/2.7/site-packages/pandas-0.13.1_213_gc174c3d-py2.7-macosx-10.9-intel.egg/pandas/core/frame.py", line 1145, in to_csv
formatter.save()
  File "/Library/Python/2.7/site-packages/pandas-0.13.1_213_gc174c3d-py2.7-macosx-10.9-intel.egg/pandas/core/format.py", line 1177, in save
self._save()
  File "/Library/Python/2.7/site-packages/pandas-0.13.1_213_gc174c3d-py2.7-macosx-10.9-intel.egg/pandas/core/format.py", line 1269, in _save
self._save_header()
  File "/Library/Python/2.7/site-packages/pandas-0.13.1_213_gc174c3d-py2.7-macosx-10.9-intel.egg/pandas/core/format.py", line 1265, in _save_header
writer.writerow(encoded_labels)
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

马甲1号

2014-11-5 09:49:36

wqf_cufe 发表于 2014-11-4 23:55
我刚才跑了你的程序一遍，出现了2个疑问。第一个是出现了2个failed，第二个是我改写你的写出路径，但是出 ...

failed是我做的一个异常处理

...放心, 数据不会少的, 但是某些时候提取一页的数据会报错. 一报错我就反复重试, 直到取到数据为止.
桌面那个貌似是解码错误什么的. 你是用什么平台?

dataout.zip
大小:(67.74 KB)

马上下载

本附件包括：

dataout.csv

我早上用windows上的python重新跑了一下, 现在应该编码是gbk了.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群