CrawlSpider 怎么针对多个爬取站点设置 rules 或者 Rule ？？？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2053 天前的主题，其中的信息可能已经有所发展或是发生改变。

如题，先放一段代码：

    start_urls = ['https://bj.58.com/ershouche/',
                  'https://www.guazi.com/bj/buy/']

    rules = (
        # Rule(LinkExtractor(restrict_css='div.main_list.clearfix > div.info_list > ul > li > div.col.col2 > a'), callback='parse_item'),
        # Rule(LinkExtractor(restrict_css="a[class='next']"))
        Rule(LinkExtractor(restrict_xpaths='div.list-wrap.js-post > ul > li > a'),
             # process_request='parse_guazi_request',
             callback='parse_guazi'),
    )

我的需求：根据 start_urls 先抓取 58 同城二手车信息，然后执行相应的 rules 或 Rule ；然后，抓取瓜子二手车信息，再执行相应的 rules 或者 Rule。

目前的困难：不知都该怎么针对不同的抓取链接写 rules 或 Rule, 尝试过写在一个里面，行不通。所以前来拜求解决方案。先谢谢大家。

5 条回复 • 2019-04-22 19:58:43 +08:00