经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
数据分析与数据科学
›
R语言论坛
抓取淘宝数据,单个进行抓取时成功,使用循环时结果为空
楼主
tokey001
3949
3
收藏
2014-05-26
从以下网页抓取淘宝名称和价格:
##
http://spu.taobao.com/spu/3c/det ... 341228&cat=1101
##
http://spu.taobao.com/spu/3c/det ... 228104&cat=1101
(源码来自
http://www.bassary.com/?p=1105
)
按照以下代码抓取淘宝数据运行成功:
library(XML)
i_url=getURL("http://spu.taobao.com/spu/3c/detail.htm?spuid=203228104&cat=1101")
#i_url=getURL("http://spu.taobao.com/spu/3c/detail.htm?spuid=205341228&cat=1101");
i_url2<-htmlParse(i_url,asText=TRUE,encoding="UTF-8")#读取html数据
name<- getNodeSet(i_url2,"//div[@id='content']//div[@class='hd']//h1")#通过xpath找到网页中的name,注意路径中的单引号
name_text_tmp<-xmlValue(name[[1]])#提取name的内容
price<-getNodeSet(i_url2,"//div[@class='idec-shop-info']//span[@class='price']")#通过xpath找到网页中的price
price_text_tmp<-xmlValue(price[[1]])#提取price的内容
name_text
<-name_text_tmp
price_text
<-price_text_tmp
data.frame(name=name_text,price=price_text)
结果:
name price
1 Apple/1 MacBook Air MD231CH/A ¥7093
但当我需要同时搜寻两个网页时,运行结果为空,代码如下
read_taobao<-function(url){
#name_text<-""
#price_text<-""
i<-1
for(i_url in url){
i_url2<-htmlParse(i_url,asText=TRUE,encoding="UTF-8")#读取html数据
name<- getNodeSet(i_url2,"//div[@id='content']//div[@class='hd']//h1")#通过xpath找到网页中的name,注意路径中的单引号
#xpath://任意位置的 @是属性
name_text_tmp<-xmlValue(name[[1]])#提取name的内容
price<-getNodeSet(i_url2,"//div[@class='idec-shop-info']//span[@class='price']")#通过xpath找到网页中的price
price_text_tmp<-xmlValue(price[[1]])#提取price的内容
name_text
<-name_text_tmp
price_text
<-price_text_tmp
i<-i+1
print(name_text_tmp)
print(price_text_tmp)
}
data.frame(name=name_text,price=price_text)
}
url1="http://spu.taobao.com/spu/3c/detail.htm?spuid=205341228&cat=1101"
url2="http://spu.taobao.com/spu/3c/detail.htm?spuid=203228104&cat=1101"
url<-c(url1,url2)
read_taobao(url)
运行结果:
[1] NA
[1] NA
[1] NA
[1] NA
name price
1 <NA> <NA>
2 <NA> <NA>
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
kuma.kobe
2015-6-16 11:42:54
你用的是什么语言?Python?
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
victorchan0633
2015-6-18 12:40:52
你的循环设置有问题,for(i_url in url)中i_url是不变的,而且跟i=1扯不上关系,另外这个网页现在搜不到了,可以换个网页再试验。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
板凳
karen_17
2015-10-13 09:39:52
没太看明白。。。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
淘宝数据公开
淘宝数据解密中国网购 “白富美”女性
淘宝数据王国的构建
臺灣地區資訊服務業空間分布及發展差異之研究
創業研究的新趨向-敘說探究之應用
CDA微信粉丝论坛币福利-零一《淘宝数据分析那点事》
关于今晚的”淘宝数据分析那点事儿“公开课进入链接
求解,新手不懂啊
淘宝数据分析:利用数据细分目标客户群
光大证券服装&化妆品2019年2月淘宝数据跟踪与解读:服装龙头增长优于行业,化妆品行
栏目导航
R语言论坛
求助成功区
经管文库(原现金交易版)
行业分析报告
CFA、CVA、FRM等金融考证论坛
休闲灌水
热门文章
CDA 数据分析师:线性回归实战指南 —— 从 ...
世界上最简单的会计书(高清pdf版)
同心动力携手山西金控,共筑金融企业“以人 ...
AI应用新范式:从工具革命到“超级OS”的演 ...
R语言实战 机器学习与数据分
R语言预测实战
20XX年扶贫办雨露计划工作方案
如盈财女:10.31黄金短线偏强,上方还有上涨 ...
2018届高考化学基础模块综合检测17
蔡定创教授、李云庆院长致联合国秘书长古特 ...
推荐文章
AI狂潮席卷学术圈,不会编程也能打造专属智 ...
最快1年拿证,学费不足5W!热门美国人工智能 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
几种免费下载文献的方法----我的文献应助经
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群