爬虫的基本原理:爬虫能爬什么数据

960次阅读
没有评论
爬虫的基本原理:爬虫能爬什么数据

爬虫可以爬取的数据大致有四类:

  • 网页源代码。最常见的便是常规网页,它们对应着HTML代码,而最长抓取的便是HTML源代码。
  • JSON字符串。可能有些网页返回的不是HTML源代码,而是一个JSON字符串(API接口大多采用这种形式),这种格式的数据方便传输和解析,爬虫同样可以爬取,而且数据提取更加方便。
  • 二进制数据。各种二进制数据,如图片、视频和音频等,利用爬虫可以将这些二进制数据抓取下来,然后保存成对应的文件名。
  • 各种扩展名的文件。如CSS、JavaScript和配置文件等,只要在浏览器里面可以访问到,就可以将其抓取下来。

上述内容其中都对应各自的URL,是基于HTTP或HTTPS协议的,只要是这种数据,爬虫都可以爬取。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-10-27发表,共计309字。
新手QQ群:570568346,欢迎进群讨论 Python51学习