全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 python论坛
3721 7
2018-11-26
最近在学爬虫,准备从新闻类的网站开始,选择了新浪的国内新闻网页https://news.sina.com.cn/china/
但在爬取网页下的内容时,却爬取不到,返回为空,如图片所示。
所用的代码如:
import requests
from bs4 import BeautifulSoup #部析网页元素
rqrs=requests.get("https://news.sina.com.cn/china/")
rqrs.encoding="utf-8"
soup=BeautifulSoup(rqrs.text,'lxml')#解析HTML,指定使用普析器 lxml
print(type(soup))
print(soup.select('title'))#将含有 feed-card-item类的内容取出来
print(soup.select('.feed-card-item'))#将含有 feed-card-item类的内容取出来

附件列表
QQ截图20181126225739.png

原图尺寸 30.78 KB

代码返回载图

代码返回载图

2018-11-26_224705.png

原图尺寸 172.72 KB

网页截图

网页截图

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-11-29 16:03:57
你好,可以试试 soup.find("h2", {"class":"undefined"}).text
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-11-30 12:59:49
复制代码


是通过 javascript 动态生成的。不是在静态 html 页面。

直接通过访问
复制代码


抓取
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-11-30 14:03:48
fledna 发表于 2018-11-30 12:59
是通过 javascript 动态生成的。不是在静态 html 页面。

直接通过访问
好的,谢谢!
我想问一下,是如何确认这种动态类型,并找到正确的链接,需要什么技巧,方便指导一下?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-11-30 15:22:45
您好,如果您的求助没有解决,请到项目交易发布需求,会有更快更专业的用户帮助您 https://bbs.pinggu.org/prj/

项目交易是为用户提供需求的平台,可以在平台发布你需求,也可以展现你的技术帮助他人,从而得到相应的报酬。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-12-1 18:10:32
万木青 发表于 2018-11-30 14:03
好的,谢谢!
我想问一下,是如何确认这种动态类型,并找到正确的链接,需要什么技巧,方便指导一下?
使用“查看网页源代码”工具。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群