Python爬虫简易入门-python爬虫入门教程(非常详细)

387次阅读

没有评论

文章目录

什么是爬虫

查看网页源代码

写一个最简单的爬虫

结果分析

什么是爬虫

查看网页源代码

我们首先打开进入浏览器打开搜狐网

然后点击鼠标右键选择查看网页源代码

Python爬虫简易入门-python爬虫入门教程(非常详细)

我们发现网站背后都是一些数据，如果我们可以用一个自动化的程序轻轻松松就能把它们给爬取下来是不是很爽？比如，一些图片和电影的网站，我们只要用 Python 写几行代码然后一运行这个程序就帮我们爬取所有的图片和电影到我们本地，完全不需要我们费一点力气，我们刚刚提到的，一个自动化的程序就是爬虫

一般爬虫可以分为通用爬虫和聚焦爬虫两种：

通用爬虫：通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。

聚焦爬虫：是”面向特定主题需求”的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页信息。

写一个最简单的爬虫

# 导入本文件所有的包
import urllib.request
#设置请求的网页
url = “http://www.baidu.com”
#发送url请求，并达到响应结果
response = urllib.request.urlopen(url=url)
#从服务器的响应中获取到页面内容
content = response.read()
print(content)
html = content.decode(‘UTF-8’)
print(html)
# 将获取到的内容保持到硬盘
f = open(“baidu.html”, “w”, encoding=“utf-8”)
f.write(html)
f.close()
# with open(“baidu.html”, “w”, encoding=”utf-8″) as f:
# f.write(html)

结果分析

此爬虫程序可打印出baidu网页的源代码及html

并将baidu网页写入本地，这样就可以在本地文件夹中打开网页

Python爬虫简易入门-python爬虫入门教程(非常详细)

打开此文件发现就是百度网页

Python爬虫简易入门-python爬虫入门教程(非常详细)

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-11-01

# Python爬虫

复制链接

赏