【带搜索、网页抓取、正则、保存】【源码】python小例子。附源码及知识点讲解

莫小漠

1726

收藏 2015-02-26

源数据输入输出要求+网页抓取知识点+下载链接

公司名字在程序同目录下的'公司全名.txt'中，一行一个

这是帮版友写的小程序：
100论坛币求python大神帮忙编一段程序完成从网页中抓取信息

源数据输入：

只用公司名，公司名另存到了txt文件中。一行一个。
时间方面：
时间未考虑小长假及春节，只考虑了周末的情况。
未考虑下班时间。当日查询时终止日期为当日。
当周末查询时，实际查询的是本周四-周五的情况。
周一时，查询的是上周五到周一。

源数据输出：

输出是否中标，同时在脚本所在目录输出中标的公司所有搜索出来的项目名及项目连接。

网页抓取所用资源总结：

写这个程序是连谷歌带百度，各种文章中基本都是python2.x的版本，而我的环境是win+python3.4，
做了2to3的修改。
用到的知识：
   1、函数及函数调用
   2、正则模块，用于检索符合条件超链接及标题；注：python默认正则是贪婪模式（即有多少给出多少，而这正式本程序所需要的），模块：re
    3、字符编码，网页是utf-8的编码，在获取之后所有的中文都是”\x45“的样子，要用utf-8的模式解码。其中ignore的作用可以自己搜索下。

复制代码

同时，文件要保存，直接保存提示错误。具体错误提示忘了，反正就是编码出错。后尝试了下将打开的TXT修改为相同编码，成功。模块：codecs

复制代码

4、网页读取，模块：urllib
带关键字搜索，因为url中涉及了这个关键字，所以分解超链接中关键字即可。
同时，有一点需要注意，url中带有中文，python访问会失败，要做转换：

复制代码

5、print的功能。模块：sys
默认输出方式的调整，指定到txt中。之后还原为默认。

复制代码

用完还原：

复制代码