python爬虫（一）爬取基本网页内容 - Python基础教程

国外IP代理推荐：
IPIPGO|全球住宅代理IP（>>>点击注册免费测试<<<）
LoongProxy|全球静态代理IP（>>>点击注册免费测试<<<）
神龙海外|全球动态代理IP（>>>点击注册免费测试<<<）
国内IP代理推荐：
天启|企业级代理IP（>>>点击注册免费测试<<<）
神龙|纯净稳定代理IP（>>>点击注册免费测试<<<）
全民|优质代理IP（>>>点击注册免费测试<<<）

python爬虫（一）爬取基本网页内容

912次阅读

参考莫烦python

#导入打开链接的库和正则 from urllib.request import urlopen import re

#选择所有内容 # if has Chinese, apply decode() html = urlopen("https://morvanzhou.github.io/static/scraping/basic-structure.html").read().decode('utf-8') print(html)

找标题内容 res = re.findall(r"<title>(.+?)</title>", html) print("\nPage title is: ", res[0]) #找段落内容 res1 = re.findall(r"<p>(.+?)</p>", html,flags=re.DOTALL) #flag这句是多行找 print("\nPage paragraphy is: ", res1[0]) #找链接 res2=re.findall(r'href="(.*?)"',html) print("\nAll links: ", res2)

正则就是选文本的方法

结果如右图

python爬虫（一）爬取基本网页内容

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-27

复制链接

赏

相关文章：

版权声明：由Python教程2022-10-27发表，共计496字。

新手QQ群：570568346，欢迎进群讨论

Python51学习

国外IP代理推荐：
IPIPGO|全球住宅代理IP（>>>点击注册免费测试<<<）
LoongProxy|全球静态代理IP（>>>点击注册免费测试<<<）
神龙海外|海外动态代理IP（>>>点击注册免费测试<<<）
国内IP代理推荐：
天启|企业级代理IP（>>>点击注册免费测试<<<）
神龙|纯净稳定代理IP（>>>点击注册免费测试<<<）
全民|国内代理IP（>>>点击注册免费测试<<<）

数据爬虫＋数据清洗 + 数据可视化，完整的项目教程！

python爬虫与数据分析面试题

python3网页图片爬虫实例

爬虫ip代理池用什么设计模式好

python爬取网页内容的简单程序

python爬虫爬取网页内容

天启|企业级代理IP免费测试>>>>>神龙|纯净稳定代理IP免费测试>>>>>IPIPGO|全球住宅代理IP免费测试>>>>>神龙|国外动态代理IP免费测试>>>>>LoongProxy|全球静态代理IP免费测试>>>>>全民|国内代理IP免费测试