python爬取网页内容的简单程序

465次阅读

''' 1.目标网址： 2.分析目标网页的标签 3.熟悉标签结构 4.导入第三方库 5.代码实现 '''

import requests from bs4 import BeautifulSoup

#要爬取的网址 url = 'https://www.biqukan.com/78_78176/523395010.html'

#1.发起请求 response = requests.get(url=url)

#2.判断是否请求成功，根据状态码判断 print('状态码',response.status_code)

#3.设置与请求的页面的相同的编码，默认浏览器 ISO–8859–1 response.encoding = 'gbk'

#4.解析请求的结构 html = response.text

#5.解析结构 soup = BeautifulSoup(html,'lxml')

#6.利用解析的实例化对象进行标签内容的获取 bs_text = soup.find_all('div', class_='showtxt') texts = bs_text[0].text #print(texts)

#7.去除空格或者空行 texts = texts.replace("'\xa0'",'\n\n')

#8.下载 file = open('超跑.txt','w',encoding='utf-8',newline='')

#9.写入 file.write(texts) #10.关闭 file.close()

print('over!')

对网页分析https://www.biqukan.com/78_78176/523395010.html
使用火狐或者谷歌按f12
查看如下
python爬取网页内容的简单程序

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-27

复制链接

赏

源码