python 抓取网页数据

417次阅读
没有评论
python

python 抓取网页数据

此文解决如何从不同网页爬取数据的问题及注意事项,重点说明requests库的应用。

在开始之前,要郑重说明一下,不是每一个网页都可以爬取数据哦。有的网页涉及个人隐私或其他敏感信息,是不允许被爬取的,硬爬的话是违法的。

❤️爬虫协议说明

但是一般的网页都是公开可爬取的啦,要注意网站的爬虫协议,查看爬虫协议的方法也很简单:在所要爬取网站的后面加上/robots.txt字样,如果跳转到一个新的网页,上面会标注本网站的哪个部分不能被爬取,然后自己注意不要碰那些敏感内容就好啦!


❤️requests库的一般用法

#导入request库 import requests

#得到目标网页的response r = requests.get('目标网页的url')

#确认是否成功获取response,若返回“200”则说明正常获取 r.status_code

#显示抓取的文本内容 r.txt

  • 解释一些关于网页的response的问题:这是建立在TCP协议的著名“三次握手”上面的。

    • 一般上网都是你的客户端向服务器发送一些数据包,这可以理解为第一次握手;

    • 服务器接收到你的数据包之后,就给你一个response(其实也是一些数据包),服务器在说“嗨呀~我收到你的hi啦~”,这也就是第二次握手;

    • 你的客户端收到服务器的“hi”之后,再发一次数据包,说“行行行,我听的见~”,这是第三次握手。

    • 所有的联网都是建立在这看似简单的三次握手上的。上文说的网页的response其实就是第二次握手

  • requests库一般是用于中小型数据的。大型数据用scrapy库


👍反爬虫网页的爬取

有一些网页有翻爬虫设置,下面是常见的一种——需要用户代理信息才能进行爬取操作的。

实际操作如下:

  • 在目标网址后输入/robots.txt查询爬虫协议,查看所需信息是否禁止爬取。

  • 在浏览器网址栏输入about:version,可以看到有user agent的信息,这个就是你客户端的用户信息,划重点,这个要考!

  • 你的爬虫程序要伪装成一个客户端,“骗”过目标网页,它才会跟你“说话”,不然就给你拒之门外(status_code不等于200)。

  • 设置header,伪装成客户端。

    header = {'User_Agent':'刚刚划重点的内容'}

    这里header其实是一个字典,它将会作为参数输入,给你的python程序加上伪装面具。可以理解header是一个伪装面具。

  • 戴上伪装面具:用requests.get('目标网页的url',header = header)方法,这里的header就是第4点的header

    这样就可以顺利跟目标网页进行“握手”啦!

  • 神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

    相关文章:

    版权声明:Python教程2022-10-27发表,共计1127字。
    新手QQ群:570568346,欢迎进群讨论 Python51学习