Python爬虫抓取网页的通用代码框架（python3.7）

ok230168

2161

收藏 2019-02-13

用的是python3.7版本，刚开始学python爬虫，小白求指点

我是通过B站的北理工mooc教程学python爬虫的，老师po出了一段抓取网页的通用代码

然后我就照着老师的代码依样画葫芦，还加了注释

# -*- coding: utf-8 -*-
import requests #导入requests库#
#抓取网页的通用代码框架#

#检测是否异常#
def getHTMLText(url):
try:
      r=requests.get(url)
      r.raise_for_status()#如果状态不是200，引发HTTPError异常#
      r.encoding=r.apparent_encoding
      return r.text
except:
      return "产生异常"

if __name__=='__main__':
      url="http://www.baidu.com"
      print(getHTMLText(url))

但是不知道是不是因为python版本的不同，无法抓取网页内容。有用python3.7版本的同学，可以帮忙看下我的代码除了什么问题吗？谢谢了！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

phipe

2019-2-14 20:34:56

最后的那几行代码,不用缩进

def getHTMLText(url):
try:
      r=requests.get(url)
      r.raise_for_status()#如果状态不是200，引发HTTPError异常#
      r.encoding=r.apparent_encoding
      return r.text
except:
      return "产生异常"

if __name__=='__main__':
url="http://www.baidu.com"
print(getHTMLText(url))

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群