经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
数据分析与数据科学
›
R语言论坛
抓取淘宝数据,单个进行抓取时成功,使用循环时结果为空
楼主
tokey001
4067
3
收藏
2014-05-26
从以下网页抓取淘宝名称和价格:
##
http://spu.taobao.com/spu/3c/det ... 341228&cat=1101
##
http://spu.taobao.com/spu/3c/det ... 228104&cat=1101
(源码来自
http://www.bassary.com/?p=1105
)
按照以下代码抓取淘宝数据运行成功:
library(XML)
i_url=getURL("http://spu.taobao.com/spu/3c/detail.htm?spuid=203228104&cat=1101")
#i_url=getURL("http://spu.taobao.com/spu/3c/detail.htm?spuid=205341228&cat=1101");
i_url2<-htmlParse(i_url,asText=TRUE,encoding="UTF-8")#读取html数据
name<- getNodeSet(i_url2,"//div[@id='content']//div[@class='hd']//h1")#通过xpath找到网页中的name,注意路径中的单引号
name_text_tmp<-xmlValue(name[[1]])#提取name的内容
price<-getNodeSet(i_url2,"//div[@class='idec-shop-info']//span[@class='price']")#通过xpath找到网页中的price
price_text_tmp<-xmlValue(price[[1]])#提取price的内容
name_text
<-name_text_tmp
price_text
<-price_text_tmp
data.frame(name=name_text,price=price_text)
结果:
name price
1 Apple/1 MacBook Air MD231CH/A ¥7093
但当我需要同时搜寻两个网页时,运行结果为空,代码如下
read_taobao<-function(url){
#name_text<-""
#price_text<-""
i<-1
for(i_url in url){
i_url2<-htmlParse(i_url,asText=TRUE,encoding="UTF-8")#读取html数据
name<- getNodeSet(i_url2,"//div[@id='content']//div[@class='hd']//h1")#通过xpath找到网页中的name,注意路径中的单引号
#xpath://任意位置的 @是属性
name_text_tmp<-xmlValue(name[[1]])#提取name的内容
price<-getNodeSet(i_url2,"//div[@class='idec-shop-info']//span[@class='price']")#通过xpath找到网页中的price
price_text_tmp<-xmlValue(price[[1]])#提取price的内容
name_text
<-name_text_tmp
price_text
<-price_text_tmp
i<-i+1
print(name_text_tmp)
print(price_text_tmp)
}
data.frame(name=name_text,price=price_text)
}
url1="http://spu.taobao.com/spu/3c/detail.htm?spuid=205341228&cat=1101"
url2="http://spu.taobao.com/spu/3c/detail.htm?spuid=203228104&cat=1101"
url<-c(url1,url2)
read_taobao(url)
运行结果:
[1] NA
[1] NA
[1] NA
[1] NA
name price
1 <NA> <NA>
2 <NA> <NA>
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
kuma.kobe
2015-6-16 11:42:54
你用的是什么语言?Python?
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
victorchan0633
2015-6-18 12:40:52
你的循环设置有问题,for(i_url in url)中i_url是不变的,而且跟i=1扯不上关系,另外这个网页现在搜不到了,可以换个网页再试验。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
板凳
karen_17
2015-10-13 09:39:52
没太看明白。。。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
淘宝数据公开
淘宝数据解密中国网购 “白富美”女性
淘宝数据王国的构建
臺灣地區資訊服務業空間分布及發展差異之研究
創業研究的新趨向-敘說探究之應用
CDA微信粉丝论坛币福利-零一《淘宝数据分析那点事》
关于今晚的”淘宝数据分析那点事儿“公开课进入链接
求解,新手不懂啊
淘宝数据分析:利用数据细分目标客户群
光大证券服装&化妆品2019年2月淘宝数据跟踪与解读:服装龙头增长优于行业,化妆品行
栏目导航
R语言论坛
经管文库(原现金交易版)
经管高考
宏观经济学
金融学(理论版)
行业分析报告
热门文章
当Stata遇上 AI 智能体:你的实证研究,正在 ...
CDA 认证考试大纲 2025 重磅更新:一二级考 ...
相对于Harness这个词,我更钟情控制论:从控 ...
Expert Choice软件(ahp层次分析法软件)含序 ...
2026 AI趋势报告(中英)
2026全球数智化人才指数报告
比亚迪一季度净利大跌55% 六年来最大跌幅
从数据仓库到智能取数:CDA数据分析师视角下 ...
A Practical Guide to Logistic Regression ...
GraphPad Prism 多因素方差分析
推荐文章
五一充电,学术突围!四大AI赋能王牌课程, ...
关于学术研究和论文发表的一些建议
几种免费下载文献的方法----我的文献应助经
【必看】【本版版规,欢迎发悬赏贴求助】
【新课】26年3月|Gemini辅助论文写作与数据 ...
关于如何利用文献的若干建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群