求助用R进行融资融券数据的网页抓取

wqf_cufe

12523

收藏 2015-01-07

悬赏 100 个论坛币已解决

最近想研究一下股票融资融券的数据，但无奈这些数据都是存储在各家网站的网页上的。

设想：用require(XML)和require(RCurl)两个包抓取下面两个网页的数据，一个是个股的每日成交数据（每日成交金额），一个是融资融券的数据（主要是融资买入额，融资余额，融资偿还额）。

网站1：http://data.eastmoney.com/rzrq/detail/600030.html

[size=13.63636302948px]网站2：http://app.finance.ifeng.com/hq/stock_daily.php?code=sh600030

这里只需截取成交额即可。

网站3：http://stockdata.stock.hexun.com/600030.shtml

这里只需要流通股本这一个数据。

流通A股(亿)

98.15

我想的是把这两个网站的以上数据汇总到R中的一个data frame中去，然后仅需修改网址的后缀即可实现任意个股的数据查询。但首先应该就是网页数据的抓取。请大神们支招。谢谢！！！

360桌面截图20150106171933.jpg

原图尺寸 346.98 KB

最佳答案

dataorz 查看完整内容

网页1前5页 require(RCurl) require(rjson) cURL

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

dataorz

2015-1-7 06:20:11

网页1前5页

require(RCurl)
require(rjson)
cURL <- paste("http://datainterface.eastmoney.com/EM_DataCenter/JS.aspx?type=FD&sty=MTE&mkt=1&code=600030&p=",1:5,sep="")
fdjson <- getURL(cURL)
fdjson1 <- substr(fdjson,2,nchar(fdjson)-1)
fdlist <- sapply(fdjson1,fromJSON)
fdlist <- strsplit(fdlist,",")
fdm <- matrix(unlist(fdlist),ncol=13,byrow=T)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

dataorz

2015-1-7 16:29:52

require(RCurl)
require(rjson)
fdjson <- getURL("http://datainterface.eastmoney.com/EM_DataCenter/JS.aspx?type=FD&sty=MTE&mkt=1&code=600030")
fdjson1 <- substr(fdjson,2,nchar(fdjson)-1)
fdlist <- fromJSON(fdjson1)
fdlist <- strsplit(fdlist,",")
fdm <- matrix(unlist(fdlist),nrow=length(fdlist),ncol=13,byrow=T)

网站1数据的抓取，请参考

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

dataorz

2015-1-7 16:34:01

看网页源码可知
1，数据来源
dataurl: "http://datainterface.eastmoney.com/EM_DataCenter/JS.aspx?type=FD&sty=MTE&mkt=1&code=600030&st={sortType}&sr={sortRule}&p={page}&ps={pageSize}&js=var {jsname}={pages:(pc),data:[(x)]}{param}",
2，网页显示只部分数据和指定表示顺序
row.cells[0].innerHTML = c;
            row.cells[1].innerHTML = data[4].replace(/\//g, "-"); //
            row.cells[2].innerHTML = data[12].format(1,0,true,"-"); //
            row.cells[3].innerHTML = data[10].format(1,0,true,"-"); //
            row.cells[4].innerHTML = data[9].format(1,0,true,"-"); //
            row.cells[5].innerHTML =data[7].format(1,0,true,"-"); //
            row.cells[6].innerHTML =data[6].format(1,0,true,"-"); //
            row.cells[7].innerHTML =data[5].format(1,0,true,"-"); //

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

daishen

2015-1-7 17:31:37

第一个是JSON格式的数据，搞不明白如何趴；第二个比较简单，是HTML格式数据。
library(rvest)
url = 'http://app.finance.ifeng.com/hq/stock_daily.php?code=sh600030'
dat = url %>% html() %>% html_nodes('table') %>% html_table() %>% .[[1]]
names(dat) = c('日期','开盘价','最高价','最低价','收盘价','成交量','成交额','涨跌额','涨跌幅')

如果有乱码用下面代码去掉没有用的乱码：

dat$日期 = sapply(1:nrow(dat),function(i)                            str_extract(dat[i,1],"\\d{4}-\\d{2}-\\d{2}"))

dat$成交量 = sapply(1:nrow(dat),function(i)
                           str_extract(dat[i,6],"\\d+"))

dat$成交额 = sapply(1:nrow(dat),function(i)
                           str_extract(dat[i,7],"\\d+"))

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

去去就来49

2015-1-7 23:31:38

内容mark

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

wqf_cufe

2015-1-8 01:08:59

dataorz 发表于 2015-1-7 16:29
require(RCurl)
require(rjson)
fdjson

请问这里能否显示全部页面的数据呢？这只股票一共有23页。哪怕显示前5页也行。谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wqf_cufe

2015-1-8 01:13:33

daishen 发表于 2015-1-7 17:31
第一个是JSON格式的数据，搞不明白如何趴；第二个比较简单，是HTML格式数据。
library(rvest)
url = 'htt ...

您第二段代码好像有误，能否用插入代码的编辑修改一下？谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

daishen

2015-1-8 06:20:37

wqf_cufe 发表于 2015-1-8 01:13
您第二段代码好像有误，能否用插入代码的编辑修改一下？谢谢！

网站的问题，编辑后还是那样

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wqf_cufe

2015-1-8 07:28:44

daishen 发表于 2015-1-8 06:20
网站的问题，编辑后还是那样

我这样改了一下就不行了，麻烦帮看看，谢谢！

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wqf_cufe

2015-1-8 07:35:39

daishen 发表于 2015-1-8 06:20
网站的问题，编辑后还是那样

能否麻烦您再帮我看看我更新的第三个网站的一个抓取，很简单，就一个数据。谢谢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

daishen

2015-1-8 10:29:18

两个错误：
1、ticker <- "sh600031"
2、日期那个规则表达式是这样的 str_extract(dat[i,1],"\\d{4}-\\d{2}-\\d{2}"))

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wqf_cufe

2015-1-8 10:33:46

dataorz 发表于 2015-1-8 09:41
网页1前5页

require(RCurl)

我这里报错了，我修改的code如下：

复制代码

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wqf_cufe

2015-1-8 10:39:34

daishen 发表于 2015-1-8 10:29
两个错误：
1、ticker

恩，好了，但是成交量和成交额改成dat[,6] = sapply(1:nrow(dat),function(i) str_extract(dat[i,6],"\\d{4}-\\d{2}-\\d{2}"))
dat[,7] = sapply(1:nrow(dat),function(i) str_extract(dat[i,7],"\\d{4}-\\d{2}-\\d{2}"))
就显示NA，咋办？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

dataorz

2015-1-8 10:55:52

网页 2
u = "http://app.finance.ifeng.com/hq/stock_daily.php?code=sh600030"
url = htmlParse(u, encoding="utf-8")
tbls = readHTMLTable(u)
tbls

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wqf_cufe

2015-1-8 11:03:58

dataorz 发表于 2015-1-8 10:55
网页 2
u = "http://app.finance.ifeng.com/hq/stock_daily.php?code=sh600030"
url = htmlParse(u, enco ...

网页3呢？谢谢！！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wqf_cufe

2015-1-8 11:15:23

dataorz 发表于 2015-1-8 10:55
网页 2
u = "http://app.finance.ifeng.com/hq/stock_daily.php?code=sh600030"
url = htmlParse(u, enco ...

您这里面的成交额后面的乱码怎么去掉呢?

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

daishen

2015-1-8 11:34:06

wqf_cufe 发表于 2015-1-8 10:39
恩，好了，但是成交量和成交额改成dat[,6] = sapply(1:nrow(dat),function(i) str_extract(dat,"\\d{4}-\ ...

只需该日期就行了，成交量和成交额是对的，不用改。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

dataorz

2015-1-8 13:40:23

网页3
require(XML)
u <- "http://stockdata.stock.hexun.com/600030.shtml"
url <-htmlParse(u)
xmlValue(getNodeSet(url,"//td[@class='tb2_new']")[[10]])

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wqf_cufe

2015-1-8 14:13:24

daishen 发表于 2015-1-8 11:34
只需该日期就行了，成交量和成交额是对的，不用改。

成交量和成交额后面都是乱码，怎么办？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

daishen

2015-1-8 16:50:17

dat$日期= sapply(1:nrow(dat),function(i)str_extract(dat[i,1],"\\d{4}-\\d{2}-\\d{2}"))

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

daishen

2015-1-8 16:51:49

dat$成交量 = sapply(1:nrow(dat),function(i) str_extract(dat[i,6],"\\d+"))

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

daishen

2015-1-8 16:52:57

dat$成交额 = sapply(1:nrow(dat),function(i) str_extract(dat[i,7],"\\d+"))
只能这样才显示正常

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wqf_cufe

2015-1-8 23:21:29

dataorz 发表于 2015-1-8 10:55
网页 2
u = "http://app.finance.ifeng.com/hq/stock_daily.php?code=sh600030"
url = htmlParse(u, enco ...

我想多截取一些网页3里面的数据，但是这个是在网页里面进行查询的，能否给个代码？谢谢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wqf_cufe

2015-1-9 11:45:12

daishen 发表于 2015-1-8 16:52
dat$成交额 = sapply(1:nrow(dat),function(i) str_extract(dat,"\\d+"))
只能这样才显示正常

请问你这里有没有其它的办法去掉这些数值后面的乱码呢？因为我想放到shiny里面，但是shiny不支持多字节字符，谢谢！！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

daishen

2015-1-9 12:06:38

用这个更简洁：

dat$日期 = str_extract(dat[,1],"\\d{4}-\\d{2}-\\d{2}")

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

daishen

2015-1-9 12:07:36

dat$成交量 = str_extract(dat[,6],"\\d+")

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

daishen

2015-1-9 12:08:14

dat$成交额 = str_extract(dat[,7],"\\d+")

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

daishen

2015-1-9 12:08:49

dat$涨跌幅 = str_replace(dat[,9],"%","")

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wqf_cufe

2015-1-9 12:12:23

daishen 发表于 2015-1-9 12:08
dat$涨跌幅 = str_replace(dat[,9],"%","")

我只需要成交额这个数据，但是不能含有“//”，您看看有什么其它的办法？谢谢！！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

最佳答案

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群