全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 python论坛
2056 7
2015-11-28
http://jinganghuating.fang.com/

上述url的正则表达式不会写,求助大侠帮忙,万分感谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-12-1 17:27:46
你要取什么值?还是说只是匹配url即可?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-12-3 15:58:17
开心1101 发表于 2015-12-1 17:27
你要取什么值?还是说只是匹配url即可?
是匹配url,就是访问搜房网首页到具体某个小区链接,用于scrapy爬虫所有小区信息,正则表达式写rules。

http://esf.sz.fang.com/housing/(起始链接,不用写)

http://esf.sz.fang.com/housing/__0_0_0_0_2_0_0/(下一页,要写正则表达式)

http://yicuishanzhuangzh.fang.com/(具体某个小区,要写正则表达式)

先谢谢了!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-12-4 17:59:02
(?<=title>【)[^,]+
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-12-6 21:14:03
sel=Selector(response)
next page:  next_page_link=sel.xpath(//a[@id="PageControl1_hlk_next"]/@href)
某个小区:    res_link=sel.xpath('//dt/a[contains(@href,"fang.com/")]/text()')

然后自己把next_page_link add to request的队列中去
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-12-8 22:50:30
开心1101 发表于 2015-12-6 21:14
sel=Selector(response)
next page:  next_page_link=sel.xpath(//a[@id="PageControl1_hlk_next"]/@href) ...
谢谢你的解答,是这么写吗?还要安装哪些安装包?

start_urls.append("http://esf.sz.fang.com/housing/")

sel=Selector(response)
next_page_link=sel.xpath(//a[@id=
"PageControl1_hlk_next"]/@href)
sel.xpath(
'//dt/a[contains(@href,"fang.com/")]/text()')

def parse_item(self, response):   

soufangspiderItem['name'] = response.xpath('//div[@class="itemTitle"]/h2/span[1]/text()').extract()[0]

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群