全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 python论坛
6568 8
2014-11-29
各位前辈,有一个很紧急的任务,求助!
任务:使用Linux的python,解析一批网页,将其中和“统计”相关的网页挑选出来,并将相应的网页标题和时间存储到txt或者excel中。
好像使用beautiful soup可以完成上述操作?
我在ubuntu下安装了这个:apt-get install Python-bs4 但是我的python是2.7.6的,是不是要安装这个?之后不会处理了。。
谢谢大家!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-11-29 16:32:56
我在这儿是在找不到地方悬赏论坛币,就去悬赏区又发了一次,大家谁有好的答案我也可以小小地表示一下感谢!https://bbs.pinggu.org/forum.php? ... =3436488&extra=
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-29 22:04:15
amdyxsls 发表于 2014-11-29 16:32
我在这儿是在找不到地方悬赏论坛币,就去悬赏区又发了一次,大家谁有好的答案我也可以小小地表示一下感谢! ...
sudo pip install beautifualsoup4
或者sudo easy_install beautifulsoup4
以后用from bs4 import BautifuSoup导入
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-29 22:08:26
ribbon 发表于 2014-11-29 22:04
sudo pip install beautifualsoup4
或者sudo easy_install beautifulsoup4
以后用from bs4 import Bautif ...
以后的处理你可以参考beautiful soup 4.2.0 documentation(Google搜索吧),beautifulsoup很方便的,也不复杂,你肯定能学会完成你的任务
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-29 23:11:53
ribbon 发表于 2014-11-29 22:08
以后的处理你可以参考beautiful soup 4.2.0 documentation(Google搜索吧),beautifulsoup很方便的,也不复 ...
好的!谢谢!
我看了一些之后,想问一下,是不是可以用soup.findAll函数?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-30 01:10:49
ribbon 发表于 2014-11-29 22:08
以后的处理你可以参考beautiful soup 4.2.0 documentation(Google搜索吧),beautifulsoup很方便的,也不复 ...
大神,请问下述程序有什么错误?能够成功运行但是结果为空。
网址是百度搜索“university”的结果。我想找一下结果中和math相关的网页标题和时间。
import urllib2
url='http://www.baidu.com/s?wd=university&pn=0&oq=university&tn=baiduhome_pg&ie=utf-8&usm=4&rsv_idx=2&rsv_pq=b247bd8100001b24&rsv_t=75f2y6ETpxsjOyy%2Fh5S%2Foe55%2FlLCh1Y87d9bcDBzxDN4bsLRN7YA2umnH%2BzOdHnxI8B1&rsv_spt=1&issp=1&f=8&rsv_bp=0'
content=urllib2.urlopen(url).read()
from BeautifulSoup import BeautifulSoup
soup=BeautifulSoup(content)
siteUrls=soup.findAll('math',attrs={'class':'g'})
siteUrls

而当我把math改为span时就会有较为正常的结果了。。。感觉我没搞明白findAll这个函数,自己看了好久了。求指点。
谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群