Python爬虫编程思想（149）：使用Scrapy抓取数据，并通过XPath指定解析规则

1,652次阅读

本文的案例会在parse方法中通过response参数设置XPath，然后从HTML代码中过滤出我们感兴趣的信息，最后将这些信息输出到PyCharm的Console中。

下面的例子通过XPath过滤出指定页面的博文列表，并利用Beautiful Soup对博文的相关信息进一步过滤，最后在Console中输出博文标题等信息。

import scrapy from bs4 import * class BlogSpider(scrapy.Spider): name = ‘BlogSpider’ start_urls = [ ‘https://geekori.com/blogsCenter.php?uid=geekori’ ] def parse(self,response): # 过滤出指定页面所有的博文 sectionList = response.xpath(‘//*[@id=”all”]/div[1]/section’).extract() # 对博文列表进行迭代 for section in sectionList: # 利用BeautifulSoup对每一篇博文的相关信息进行过滤 bs = BeautifulSoup(section,’lxml’) articleDict = {} a = bs.find(‘a’) # 获取博文标题

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

# Python爬虫

复制链接

赏

Python爬虫编程思想（149）：使用Scrapy抓取数据，并通过XPath指定解析规则

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置