正则表达式求助 - python论坛

正则表达式求助

wuchm

2056

收藏 2015-11-28

http://jinganghuating.fang.com/

上述url的正则表达式不会写，求助大侠帮忙，万分感谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

开心1101

2015-12-1 17:27:46

你要取什么值?还是说只是匹配url即可?

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wuchm

2015-12-3 15:58:17

开心1101 发表于 2015-12-1 17:27
你要取什么值?还是说只是匹配url即可?

是匹配url，就是访问搜房网首页到具体某个小区链接，用于scrapy爬虫所有小区信息，正则表达式写rules。

http://esf.sz.fang.com/housing/（起始链接，不用写）

http://esf.sz.fang.com/housing/__0_0_0_0_2_0_0/（下一页，要写正则表达式）

http://yicuishanzhuangzh.fang.com/（具体某个小区，要写正则表达式）

先谢谢了！！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

万人往LVR

2015-12-4 17:59:02

(?<=title>【)[^,]+

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

开心1101

2015-12-6 21:14:03

sel=Selector(response)
next page: next_page_link=sel.xpath(//a[@id="PageControl1_hlk_next"]/@href)
某个小区: res_link=sel.xpath('//dt/a[contains(@href,"fang.com/")]/text()')

然后自己把next_page_link add to request的队列中去

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

wuchm

2015-12-8 22:50:30

开心1101 发表于 2015-12-6 21:14
sel=Selector(response)
next page: next_page_link=sel.xpath(//a[@id="PageControl1_hlk_next"]/@href) ...

谢谢你的解答，是这么写吗？还要安装哪些安装包？

start_urls.append("http://esf.sz.fang.com/housing/")

sel=Selector(response)
next_page_link=sel.xpath(//a[@id="PageControl1_hlk_next"]/@href)
sel.xpath('//dt/a[contains(@href,"fang.com/")]/text()')

def parse_item(self, response):

soufangspiderItem['name'] = response.xpath('//div[@class="itemTitle"]/h2/span[1]/text()').extract()[0]

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群