python爬取两个网站

495次阅读

没有评论

前面介绍的scrapy爬虫只能爬取单个网页。如果我们想爬取多个网页。比如网上的小说该如何如何操作呢。比如下面的这样的结构。是小说的第一篇。可以点击返回目录还是下一页

python爬取两个网站

对应的网页代码：

python爬取两个网站

我们再看进入后面章节的网页，可以看到增加了上一页

python爬取两个网站

对应的网页代码：

python爬取两个网站

通过对比上面的网页代码可以看到. 上一页，目录，下一页的网页代码都在

下的元素的href里面。不同的是第一章只有2个元素，从二章开始就有3个元素。因此我们可以通过

下

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

# Python爬虫

复制链接

赏

新手QQ群：570568346，欢迎进群讨论

scrapy用不同规则抓取多个网站（基于csv文件）以及向爬虫传递参数（参数可默认）

网络爬虫之Scrapy实战四：爬取网页下载图片

天启|企业级代理IP免费测试>>>>>神龙|纯净稳定代理IP免费测试>>>>>IPIPGO|全球住宅代理IP免费测试>>>>>神龙|国外动态代理IP免费测试>>>>>LoongProxy|全球静态代理IP免费测试>>>>>全民|国内代理IP免费测试

python爬取两个网站

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

静态代理IP怎么填写：步骤与示例

动态与静态代理IP的区别解析

在线代理服务器的使用与推荐

海外静态IP的代理选择与配置

如何找到可靠的免费代理服务器

HTTP代理设置详解：一步步配置指南

国外代理服务器的优势及选择建议

HTTP代理服务器的设置及应用实例