源码
''' 1.目标网址: 2.分析目标网页的标签 3.熟悉标签结构 4.导入第三方库 5.代码实现 '''
import requests from bs4 import BeautifulSoup
#要爬取的网址 url = 'https://www.biqukan.com/78_78176/523395010.html'
#1.发起请求 response = requests.get(url=url)
#2.判断是否请求成功,根据状态码判断 print('状态码',response.status_code)
#3.设置与请求的页面的相同的编码, 默认浏览器 ISO–8859–1 response.encoding = 'gbk'
#4.解析请求的结构 html = response.text
#5.解析结构 soup = BeautifulSoup(html,'lxml')
#6.利用解析的实例化对象进行标签内容的获取 bs_text = soup.find_all('div', class_='showtxt') texts = bs_text[0].text #print(texts)
#7.去除空格 或者 空行 texts = texts.replace("'\xa0'",'\n\n')
#8.下载 file = open('超跑.txt','w',encoding='utf-8',newline='')
#9.写入 file.write(texts) #10.关闭 file.close()
print('over!')
特别注意
对网页分析https://www.biqukan.com/78_78176/523395010.html
使用火狐或者谷歌 按f12
查看如下
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试