python爬取网站实例,Python爬取网页简单示例

753次阅读

没有评论

准备材料

一：使用到的Python第三方库是requests 和 BeautifulSoup

二：选择要爬取的网页

我选择了豆瓣小组里的一个帖子回复(是微博或者微信的签名，个人感觉比较有意思)

地址是：https://www.douban.com/group/topic/80125952/

三：分析网页源代码

打开地址后，右键-查看网页源代码

我们爬取的p标签,class=”reply-content”里的内容

14345926-4252580093d33a3b.png

具体的代码如下

import requests

from bs4 import BeautifulSoup

import time

#设置请求header伪装成浏览器

headers = {‘user-agent’:’Mozilla/5.0 (iPad; CPU OS 11_0 like Mac OS X) AppleWebKit/604.1.34 (KHTML, like Gecko) Version/11.0 Mobile/15A5341f Safari/604.1′}

for i in range(29):

url = ‘https://www.douban.com/group/topic/80125952/?start=’ + str(i*100)

req = requests.get(url,headers=headers) #获取网页请求

content = req.content #获取到的网页请求的具体内容

soup = BeautifulSoup(content,’lxml’) #把获取到的网页请求内容构造成 BeautifulSoup 对象

replycontents = soup.find_all(name=’p’,attrs={‘class’:’reply-content’})# 使用 find_all 查找文档树中标签为p,class=”reply-content” 的所有内容

try:

for replycontent in replycontents:

text = replycontent.string

print(text)

except:

TypeError

time.sleep(5)

运行的结果部分截图如下

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-28

# Python爬虫

复制链接

赏

python爬取网站实例,Python爬取网页简单示例

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置