scrapy爬虫第一阶段——爬取多级url

511次阅读

实验需要爬取一族pm2.5数据，纠结了几天爬虫，总算取得阶段性胜利，至少够项目用了

总结一下思想，就是首先设一个start url作为入口，爬到需要的url后将其链接传递到下一级parse，以此类推

原理再研究，会用先：

class DmozSpider(scrapy.spiders.Spider):
    name = "dmoz0" //爬虫名称，在每次调用爬虫时需要
    allowed_domains = ["www.tianqihoubao.com"] //注意这里非常重要，它定义整个搜索的范围，既往下的任何搜索都在这个域名的范围内，注：不是链接！
    start_urls = [
        "http://www.tianqihoubao.com/aqi/"
    ]            //这一部分设定起始url

    def parse(self, response):   //scrapy框架默认传入parse
       sel = Selector(response)
       sites = sel.xpath('//dl')
       url = "http://www.tianqihoubao.com"
       items = []
       for site in sites:
           provence = site.xpath('dt/b/text()').extract()
           print(provence)
           citys = site.xpath('dd/a')
           for city in citys:
               name = city.xpath('text()').extract()
               cityurl = city.xpath('@href').extract()
               cl = url + cityurl[0]
               item = CityItem()
               item['name'] = name
               item['url'] =url + cityurl[0]
               items.append(item)
               yield scrapy.Request(cl, callback=self.parse_item)     //yield生成请求，将新的url加入到爬取队列中，cl为url，callback为新的爬取调用的parse名称，这个项目新定义的为parse_item。
               print("000")
    def parse_item(self, response):
       sell = Selector(response)
       sites = sell.xpath('//h2')
       print("999")

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

# Python爬虫

复制链接

赏

scrapy爬虫第一阶段——爬取多级url

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置