爬虫的基本原理：爬虫能爬什么数据 - Python基础教程

国外IP代理推荐：
IPIPGO|全球住宅代理IP（>>>点击注册免费测试<<<）
LoongProxy|全球静态代理IP（>>>点击注册免费测试<<<）
神龙海外|全球动态代理IP（>>>点击注册免费测试<<<）
国内IP代理推荐：
天启|企业级代理IP（>>>点击注册免费测试<<<）
神龙|纯净稳定代理IP（>>>点击注册免费测试<<<）
全民|优质代理IP（>>>点击注册免费测试<<<）

爬虫的基本原理：爬虫能爬什么数据

1,122次阅读

爬虫的基本原理：爬虫能爬什么数据

爬虫可以爬取的数据大致有四类：

网页源代码。最常见的便是常规网页，它们对应着HTML代码，而最长抓取的便是HTML源代码。
JSON字符串。可能有些网页返回的不是HTML源代码，而是一个JSON字符串（API接口大多采用这种形式），这种格式的数据方便传输和解析，爬虫同样可以爬取，而且数据提取更加方便。
二进制数据。各种二进制数据，如图片、视频和音频等，利用爬虫可以将这些二进制数据抓取下来，然后保存成对应的文件名。
各种扩展名的文件。如CSS、JavaScript和配置文件等，只要在浏览器里面可以访问到，就可以将其抓取下来。

上述内容其中都对应各自的URL，是基于HTTP或HTTPS协议的，只要是这种数据，爬虫都可以爬取。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-27

复制链接

赏

相关文章：

版权声明：由Python教程2022-10-27发表，共计309字。

新手QQ群：570568346，欢迎进群讨论

Python51学习

国外IP代理推荐：
IPIPGO|全球住宅代理IP（>>>点击注册免费测试<<<）
LoongProxy|全球静态代理IP（>>>点击注册免费测试<<<）
神龙海外|海外动态代理IP（>>>点击注册免费测试<<<）
国内IP代理推荐：
天启|企业级代理IP（>>>点击注册免费测试<<<）
神龙|纯净稳定代理IP（>>>点击注册免费测试<<<）
全民|国内代理IP（>>>点击注册免费测试<<<）

需要登录的网页如何用Python爬虫

Python爬虫：Scrapy的get请求和post请求

室内设计师学习爬虫python

如何快速爬取网页数据（干货）

python爬虫一：数据采集

python爬虫：爬取全国航班信息

天启|企业级代理IP免费测试>>>>>神龙|纯净稳定代理IP免费测试>>>>>IPIPGO|全球住宅代理IP免费测试>>>>>神龙|国外动态代理IP免费测试>>>>>LoongProxy|全球静态代理IP免费测试>>>>>全民|国内代理IP免费测试