全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 python论坛
1599 3
2015-09-15
http://www.xicidaili.com/
这个网址爬不下来,求代码,只要open出来就好,不用解析
谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-10-13 17:59:50
# -*- coding: utf-8 -*-
import urllib2
from urllib2 import  HTTPError  


url = "http://www.xicidaili.com/"
req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
  'Accept':'text/html;q=0.9,*/*;q=0.8',
  'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
  'Accept-Encoding':'gzip',
  'Connection':'close',
  'Referer':None #注意如果依然不能抓取的话,这里可以设置抓取网站的host
  }
  
req_timeout =5
req = urllib2.Request(url, None, req_header)

try:
    response = urllib2.urlopen(req,None,req_timeout)
    content = response.read()
except HTTPError, e:
    if e.getcode() == 500:
        content = e.read()
    else:
        raise
        
print content
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-10-13 18:00:53
joe、92 发表于 2015-10-13 17:59
# -*- coding: utf-8 -*-
import urllib2
from urllib2 import  HTTPError
伪装一下可以爬下内容来,但是爬下来的好像还是需要编码处理过,这个我不太懂。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-10-13 21:36:45
'Accept-Encoding':'gzip' 把header里面这一行删掉就好了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群