python装饰器的巧用
我们来模拟一个场景,需要你去抓去一个页面,然后这个页面有好多url也要分别去抓取,而进入这些子url后,还有数据要抓取。简单点,我们就按照三层来看,那我们的代码就是如下:
def func_top
(url
): data_dict=
{} #在页面上获取到子url sub_urls = xxxx data_list =
[ for it
in sub_urls: data_list.
append(func_sub
(it
)) data_dict
['data' = data_list
return data_dict
def func_sub
(url
): data_dict=
{} #在页面上获取到子url bottom_urls = xxxx data_list =
[ for it
in bottom_urls: data_list.
append(func_bottom
(it
)) data_dict
['data' = data_list
return data_dict
def func_bottom
(url
):
#获取数据 data = xxxx
return data
func_top是上层页面的处理函数,func_sub是子页面的处理函数,func_bottom是最深层页面的处理函数,func_top会在取到子页面url后遍历调用func_sub,func_sub也是同样。
如果正常情况下,这样确实已经满足需求了,但是偏偏这个你要抓取的网站可能极不稳定,经常链接不上,导致数据拿不到。
于是这个时候你有两个选择:
- 遇到错误就停止,之后重新从断掉的位置开始重新跑
- 遇到错误继续,但是要在之后重新跑一遍,这个时候已经有的数据不希望再去网站拉一次,而只去拉没有取到的数据
对第一种方案基本无法实现,因为如果别人网站的url调整顺序,那么你记录的位置就无效了。那么只有第二种方案,说白了,就是要把已经拿到的数据cache下来,等需要的时候,直接从cache里面取。
OK,目标已经有了,怎么实现呢?
如果是在C++中的,这是个很麻烦的事情,而且写出来的代码必定丑陋无比,然而庆幸的是,我们用的是python,而python对函数有装饰器。
所以实现方案也就有了:
定义一个装饰器,如果之前取到数据,就直接取cache的数据;如果之前没有取到,那么就从网站拉取,并且存入cache中.
代码如下:
import osimport hashlib
def deco_args_recent_cache
(category=
'dumps'):
''' 装饰器,返回最新cache的数据 ''' def deco_recent_cache
(func
):
def func_wrapper
(*args,
**kargs
): sig = _mk_cache_sig
(*args,
**kargs
) data = _get_recent_cache
(category, func.__name__, sig
) if data
is not None:
return data data = func
(*args,
**kargs
) if data
is not None: _set_recent_cache
(category, func.__name__, sig, data
) return data
return func_wrapper
return deco_recent_cache
def _mk_cache_sig
(*args,
**kargs
):
''' 通过传入参数,生成唯一标识 ''' src_data =
repr(args
) +
repr(kargs
) m = hashlib.
md5(src_data
) sig = m.
hexdigest() return sig
def _get_recent_cache
(category, func_name, sig
): full_file_path =
'%s/%s/%s' % (category, func_name, sig
) if os.
path.
isfile(full_file_path
):
return eval(file(full_file_path,
'r').
read()) else:
return None def _set_recent_cache
(category, func_name, sig, data
): full_dir_path =
'%s/%s' % (category, func_name
) if not os.
path.
isdir(full_dir_path
):
os.
makedirs(full_dir_path
) full_file_path =
'%s/%s/%s' % (category, func_name, sig
) f =
file(full_file_path,
'w+') f.
write(repr(data
)) f.
close() 然后,我们只需要在每个func_top,func_sub,func_bottom都加上deco_args_recent_cache这个装饰器即可~~
搞定!这样做最大的好处在于,因为top,sub,bottom,每一层都会dump数据,所以比如某个sub层数据dump之后,是根本不会走到他所对应的bottom层的,减少了大量的开销!