经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
数据分析与数据科学
›
R语言论坛
抓取淘宝数据,单个进行抓取时成功,使用循环时结果为空
楼主
tokey001
4009
3
收藏
2014-05-26
从以下网页抓取淘宝名称和价格:
##
http://spu.taobao.com/spu/3c/det ... 341228&cat=1101
##
http://spu.taobao.com/spu/3c/det ... 228104&cat=1101
(源码来自
http://www.bassary.com/?p=1105
)
按照以下代码抓取淘宝数据运行成功:
library(XML)
i_url=getURL("http://spu.taobao.com/spu/3c/detail.htm?spuid=203228104&cat=1101")
#i_url=getURL("http://spu.taobao.com/spu/3c/detail.htm?spuid=205341228&cat=1101");
i_url2<-htmlParse(i_url,asText=TRUE,encoding="UTF-8")#读取html数据
name<- getNodeSet(i_url2,"//div[@id='content']//div[@class='hd']//h1")#通过xpath找到网页中的name,注意路径中的单引号
name_text_tmp<-xmlValue(name[[1]])#提取name的内容
price<-getNodeSet(i_url2,"//div[@class='idec-shop-info']//span[@class='price']")#通过xpath找到网页中的price
price_text_tmp<-xmlValue(price[[1]])#提取price的内容
name_text
<-name_text_tmp
price_text
<-price_text_tmp
data.frame(name=name_text,price=price_text)
结果:
name price
1 Apple/1 MacBook Air MD231CH/A ¥7093
但当我需要同时搜寻两个网页时,运行结果为空,代码如下
read_taobao<-function(url){
#name_text<-""
#price_text<-""
i<-1
for(i_url in url){
i_url2<-htmlParse(i_url,asText=TRUE,encoding="UTF-8")#读取html数据
name<- getNodeSet(i_url2,"//div[@id='content']//div[@class='hd']//h1")#通过xpath找到网页中的name,注意路径中的单引号
#xpath://任意位置的 @是属性
name_text_tmp<-xmlValue(name[[1]])#提取name的内容
price<-getNodeSet(i_url2,"//div[@class='idec-shop-info']//span[@class='price']")#通过xpath找到网页中的price
price_text_tmp<-xmlValue(price[[1]])#提取price的内容
name_text
<-name_text_tmp
price_text
<-price_text_tmp
i<-i+1
print(name_text_tmp)
print(price_text_tmp)
}
data.frame(name=name_text,price=price_text)
}
url1="http://spu.taobao.com/spu/3c/detail.htm?spuid=205341228&cat=1101"
url2="http://spu.taobao.com/spu/3c/detail.htm?spuid=203228104&cat=1101"
url<-c(url1,url2)
read_taobao(url)
运行结果:
[1] NA
[1] NA
[1] NA
[1] NA
name price
1 <NA> <NA>
2 <NA> <NA>
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
kuma.kobe
2015-6-16 11:42:54
你用的是什么语言?Python?
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
victorchan0633
2015-6-18 12:40:52
你的循环设置有问题,for(i_url in url)中i_url是不变的,而且跟i=1扯不上关系,另外这个网页现在搜不到了,可以换个网页再试验。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
板凳
karen_17
2015-10-13 09:39:52
没太看明白。。。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
淘宝数据公开
淘宝数据解密中国网购 “白富美”女性
淘宝数据王国的构建
臺灣地區資訊服務業空間分布及發展差異之研究
創業研究的新趨向-敘說探究之應用
CDA微信粉丝论坛币福利-零一《淘宝数据分析那点事》
关于今晚的”淘宝数据分析那点事儿“公开课进入链接
求解,新手不懂啊
淘宝数据分析:利用数据细分目标客户群
光大证券服装&化妆品2019年2月淘宝数据跟踪与解读:服装龙头增长优于行业,化妆品行
栏目导航
R语言论坛
金融实务版
新手入门区
经管文库(原现金交易版)
商学院
SPSS论坛
热门文章
表格结构数据特征与CDA数据分析师:精准适配 ...
2025全球人工智能技术应用洞察报告
【中国电信】2025年云计算研究白皮书
奇瑞QQ焕新归来
普华永道 - 中国影响力报告2025
房地产行业:2026年,年轻人应该先买车还是 ...
【应用统计学资料】98份应用统计学资料合集
【24更新,自用整理!】2007-2024省级环境保护 ...
CDA数据分析脱产就业班于2026年3月7日开班! ...
表格结构数据的核心特征及具象实例解析
推荐文章
2026JG学术冬训营:从Stata初高到Python机器 ...
【必看】【本版版规,欢迎发悬赏贴求助】
26年寒假天津站|Gemini论文写作&数据分析 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群