抓取淘宝数据，单个进行抓取时成功，使用循环时结果为空

tokey001

4068

收藏 2014-05-26

从以下网页抓取淘宝名称和价格：
##http://spu.taobao.com/spu/3c/det ... 341228&cat=1101
##http://spu.taobao.com/spu/3c/det ... 228104&cat=1101

（源码来自http://www.bassary.com/?p=1105）
按照以下代码抓取淘宝数据运行成功：
library(XML)
i_url=getURL("http://spu.taobao.com/spu/3c/detail.htm?spuid=203228104&cat=1101")
#i_url=getURL("http://spu.taobao.com/spu/3c/detail.htm?spuid=205341228&cat=1101");
i_url2<-htmlParse(i_url,asText=TRUE,encoding="UTF-8")#读取html数据
name<- getNodeSet(i_url2,"//div[@id='content']//div[@class='hd']//h1")#通过xpath找到网页中的name,注意路径中的单引号
name_text_tmp<-xmlValue(name[[1]])#提取name的内容
price<-getNodeSet(i_url2,"//div[@class='idec-shop-info']//span[@class='price']")#通过xpath找到网页中的price
price_text_tmp<-xmlValue(price[[1]])#提取price的内容
name_text<-name_text_tmp
price_text<-price_text_tmp
data.frame(name=name_text,price=price_text)
结果：
name price
1 Apple/1 MacBook Air MD231CH/A ￥7093
但当我需要同时搜寻两个网页时，运行结果为空，代码如下
read_taobao<-function(url){
#name_text<-""
#price_text<-""
i<-1
for(i_url in url){
i_url2<-htmlParse(i_url,asText=TRUE,encoding="UTF-8")#读取html数据
name<- getNodeSet(i_url2,"//div[@id='content']//div[@class='hd']//h1")#通过xpath找到网页中的name,注意路径中的单引号
#xpath://任意位置的 @是属性
name_text_tmp<-xmlValue(name[[1]])#提取name的内容
price<-getNodeSet(i_url2,"//div[@class='idec-shop-info']//span[@class='price']")#通过xpath找到网页中的price
price_text_tmp<-xmlValue(price[[1]])#提取price的内容
name_text<-name_text_tmp
price_text<-price_text_tmp
i<-i+1
print(name_text_tmp)
print(price_text_tmp)
}
data.frame(name=name_text,price=price_text)
}
url1="http://spu.taobao.com/spu/3c/detail.htm?spuid=205341228&cat=1101"
url2="http://spu.taobao.com/spu/3c/detail.htm?spuid=203228104&cat=1101"
url<-c(url1,url2)
read_taobao(url)
运行结果：
[1] NA
[1] NA
[1] NA
[1] NA
name price
1 <NA> <NA>
2 <NA> <NA>

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

沙发

kuma.kobe

2015-6-16 11:42:54

你用的是什么语言？Python？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

藤椅

victorchan0633

2015-6-18 12:40:52

你的循环设置有问题，for(i_url in url)中i_url是不变的，而且跟i=1扯不上关系，另外这个网页现在搜不到了，可以换个网页再试验。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

板凳

karen_17

2015-10-13 09:39:52

没太看明白。。。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

相关推荐

淘宝数据公开

淘宝数据解密中国网购 “白富美”女性

淘宝数据王国的构建

臺灣地區資訊服務業空間分布及發展差異之研究

創業研究的新趨向－敘說探究之應用

CDA微信粉丝论坛币福利-零一《淘宝数据分析那点事》

关于今晚的”淘宝数据分析那点事儿“公开课进入链接

求解，新手不懂啊

淘宝数据分析：利用数据细分目标客户群

光大证券服装＆化妆品2019年2月淘宝数据跟踪与解读：服装龙头增长优于行业，化妆品行

栏目导航

R语言论坛

行业分析报告

SPSS论坛

经管在职研

经管文库（原现金交易版）

经管高考

热门文章

相对于Harness这个词，我更钟情控制论：从控 ...

比亚迪一季度净利大跌55% 六年来最大跌幅

当Stata遇上 AI 智能体：你的实证研究，正在 ...

从数据仓库到智能取数：CDA数据分析师视角下 ...

CDA 认证考试大纲 2025 重磅更新：一二级考 ...

A Practical Guide to Logistic Regression ...

GraphPad Prism 多因素方差分析

Expert Choice软件(ahp层次分析法软件)含序 ...

悉尼工业市场状况

奖酬变革：奖酬管理者如何转型为战略绩效设 ...

推荐文章

五一充电，学术突围！四大AI赋能王牌课程， ...

关于学术研究和论文发表的一些建议

几种免费下载文献的方法----我的文献应助经

【必看】【本版版规，欢迎发悬赏贴求助】

【新课】26年3月｜Gemini辅助论文写作与数据 ...

关于如何利用文献的若干建议

关于科研中如何学习基础知识的一些建议 (一 ...

一个自编的经济学建模小案例 --写给授课本科 ...

AI智能体赋能教学改革: 全国AI教育教学应用 ...

2025中国AIoT产业全景图谱报告-406页

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群