求爬取一个页面代码

万人往LVR

1647

收藏 2015-09-15

http://www.xicidaili.com/
这个网址爬不下来，求代码，只要open出来就好，不用解析
谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

joe、92

2015-10-13 17:59:50

# -*- coding: utf-8 -*-
import urllib2
from urllib2 import  HTTPError

url = "http://www.xicidaili.com/"
req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
  'Accept':'text/html;q=0.9,*/*;q=0.8',
  'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
  'Accept-Encoding':'gzip',
  'Connection':'close',
  'Referer':None #注意如果依然不能抓取的话，这里可以设置抓取网站的host
  }

req_timeout =5
req = urllib2.Request(url, None, req_header)

try:
response = urllib2.urlopen(req,None,req_timeout)
content = response.read()
except HTTPError, e:
if e.getcode() == 500:
      content = e.read()
else:
      raise

print content

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

joe、92

2015-10-13 18:00:53

joe、92 发表于 2015-10-13 17:59
# -*- coding: utf-8 -*-
import urllib2
from urllib2 import HTTPError

伪装一下可以爬下内容来，但是爬下来的好像还是需要编码处理过，这个我不太懂。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

joe、92

2015-10-13 21:36:45

'Accept-Encoding':'gzip' 把header里面这一行删掉就好了

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群