全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 悬赏大厅 求助成功区
2416 8
2015-11-07
悬赏 200 个论坛币 已解决
用Python scrapy爬虫框架编写程序。
1、scrapy爬虫框架怎么搭建?
2、搭建成功后,爬取网站:
     a、网站:搜房网(深圳):http://esf.sz.fang.com/housing/__0_3_0_0_1_0_0/
     b、需要抓取的结果:如下表所示,字段全部抓取出来。
     c、最好对每一步解释下,本人初学者,底子弱,谢谢!   


本月均价:38495元/㎡环比上月 ;↓0.06%
同比去年; ↑44.07%
二手房;2639套
出 租 房;209套
周边短租房;65套
装修案例; 8套
所在区域; 南山 科技园
小区地址 ;南山深南大道深圳大学旁物业
电话 :26966292
物业地点 ; 汇景豪苑停车场
物业费 :2.80元/平米·月
物业公司 : 深圳新港物业管理有限公司
建筑年代 : 2000-04-15
开发商  :大中华国际实业(深圳)有限公司


最佳答案

trans 查看完整内容

1.创建一个Scrapy项目 2.定义提取的Item 3.编写爬取网站的 spider 并提取 Item 4.编写 Item Pipeline 来存储提取到的Item(即数据) 举例: import scrapy from myproject.items import MyItem class MySpider(scrapy.Spider): name = 'example.com' allowed_domains = ['example.com'] start_urls = [ 'http://www.example.com/1.html', 'http://www.example.com/2.html', ...
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-11-7 18:57:23
1.创建一个Scrapy项目
2.定义提取的Item
3.编写爬取网站的 spider 并提取 Item
4.编写 Item Pipeline 来存储提取到的Item(即数据)


举例:
import scrapy
from myproject.items import MyItem

class MySpider(scrapy.Spider):
    name = 'example.com'
    allowed_domains = ['example.com']
    start_urls = [
        'http://www.example.com/1.html',
        'http://www.example.com/2.html',
        'http://www.example.com/3.html',
    ]

    def parse(self, response):
        sel = scrapy.Selector(response)
        for h3 in response.xpath('//h3').extract():
            yield MyItem(title=h3)

        for url in response.xpath('//a/@href').extract():
            yield scrapy.Request(url, callback=self.parse)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-11-7 21:41:07
楼主会吗? 可以教我吗
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-11-7 22:01:29
目前还在学python,有些学习资料可以提供分享。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-11-8 16:01:03
ftdfeiyang 发表于 2015-11-7 22:01
目前还在学python,有些学习资料可以提供分享。
有爬虫方面的吗,简单易懂的?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-11-8 19:10:25
我整理整理书,还有些视频估计网站上不好放。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群