python爬取网页内容的简单程序

397次阅读
没有评论

源码

''' 1.目标网址: 2.分析目标网页的标签 3.熟悉标签结构 4.导入第三方库 5.代码实现 '''

import requests from bs4 import BeautifulSoup

#要爬取的网址 url = 'https://www.biqukan.com/78_78176/523395010.html'

#1.发起请求 response = requests.get(url=url)

#2.判断是否请求成功,根据状态码判断 print('状态码',response.status_code)

#3.设置与请求的页面的相同的编码, 默认浏览器 ISO88591 response.encoding = 'gbk'

#4.解析请求的结构 html = response.text

#5.解析结构 soup = BeautifulSoup(html,'lxml')

#6.利用解析的实例化对象进行标签内容的获取 bs_text = soup.find_all('div', class_='showtxt') texts = bs_text[0].text #print(texts)

#7.去除空格 或者 空行 texts = texts.replace("'\xa0'",'\n\n')

#8.下载 file = open('超跑.txt','w',encoding='utf-8',newline='')

#9.写入 file.write(texts) #10.关闭 file.close()

print('over!')

特别注意

对网页分析https://www.biqukan.com/78_78176/523395010.html
使用火狐或者谷歌 按f12
查看如下
python爬取网页内容的简单程序
python爬取网页内容的简单程序

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-10-27发表,共计849字。
新手QQ群:570568346,欢迎进群讨论 Python51学习