python解析网页，提取与关键词相关的网页标题

6745

收藏 2014-11-29

各位前辈，有一个很紧急的任务，求助！
任务：使用Linux的python，解析一批网页，将其中和“统计”相关的网页挑选出来，并将相应的网页标题和时间存储到txt或者excel中。
好像使用beautiful soup可以完成上述操作？
我在ubuntu下安装了这个：apt-get install Python-bs4 但是我的python是2.7.6的，是不是要安装这个？之后不会处理了。。
谢谢大家！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

amdyxsls

2014-11-29 16:32:56

我在这儿是在找不到地方悬赏论坛币，就去悬赏区又发了一次，大家谁有好的答案我也可以小小地表示一下感谢！https://bbs.pinggu.org/forum.php? ... =3436488&extra=

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ribbon

2014-11-29 22:04:15

amdyxsls 发表于 2014-11-29 16:32
我在这儿是在找不到地方悬赏论坛币，就去悬赏区又发了一次，大家谁有好的答案我也可以小小地表示一下感谢！ ...

sudo pip install beautifualsoup4
或者sudo easy_install beautifulsoup4
以后用from bs4 import BautifuSoup导入

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ribbon

2014-11-29 22:08:26

ribbon 发表于 2014-11-29 22:04
sudo pip install beautifualsoup4
或者sudo easy_install beautifulsoup4
以后用from bs4 import Bautif ...

以后的处理你可以参考beautiful soup 4.2.0 documentation(Google搜索吧)，beautifulsoup很方便的，也不复杂，你肯定能学会完成你的任务

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

amdyxsls

2014-11-29 23:11:53

ribbon 发表于 2014-11-29 22:08
以后的处理你可以参考beautiful soup 4.2.0 documentation(Google搜索吧)，beautifulsoup很方便的，也不复 ...

好的！谢谢！
我看了一些之后，想问一下，是不是可以用soup.findAll函数？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

amdyxsls

2014-11-30 01:10:49

ribbon 发表于 2014-11-29 22:08
以后的处理你可以参考beautiful soup 4.2.0 documentation(Google搜索吧)，beautifulsoup很方便的，也不复 ...

大神，请问下述程序有什么错误？能够成功运行但是结果为空。
网址是百度搜索“university”的结果。我想找一下结果中和math相关的网页标题和时间。
import urllib2
url='http://www.baidu.com/s?wd=university&pn=0&oq=university&tn=baiduhome_pg&ie=utf-8&usm=4&rsv_idx=2&rsv_pq=b247bd8100001b24&rsv_t=75f2y6ETpxsjOyy%2Fh5S%2Foe55%2FlLCh1Y87d9bcDBzxDN4bsLRN7YA2umnH%2BzOdHnxI8B1&rsv_spt=1&issp=1&f=8&rsv_bp=0'
content=urllib2.urlopen(url).read()
from BeautifulSoup import BeautifulSoup
soup=BeautifulSoup(content)
siteUrls=soup.findAll('math',attrs={'class':'g'})
siteUrls

而当我把math改为span时就会有较为正常的结果了。。。感觉我没搞明白findAll这个函数，自己看了好久了。求指点。
谢谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群