python网络数据爬取

1,396次阅读

没有评论

The website is the API……(未来的数据都是通过网络来提供的，website本身对爬虫来讲就是自动获取数据的API)。掌握定向网络数据爬取和网页解析的基本能力。

##Requests 库的使用，此库是Python公认的优秀的第三方网络爬虫库。能够自动的爬取HTML页面；自动的生成网络请求提交。

##robots.tex 协议网络爬虫排除标准 (网络爬虫的盗亦有道)

1.安装Requests库以管理员权限进入cmd控制台，通过" pip install requests "命令安装Requests库

#测试安装Requests库的效果，以爬取百度主页为例

>>> importrequests>>> r = requests.get("http://www.baidu.com")##一行代码就可以获取任何对应的URL的资源>>> r.status_code() #状态码

200

>>> r.encoding = "utf-8" #将编码更改为UTF-8编码

>>> r.text #打印网页内容

……百度主页的内容……

2. requests 的主要方法：

##2.1 r = requests.get(url) : get 方法为获得一个网页最常用的方法，此方法构建一个向服务器发送请求的Request(requests库内部生产的)对象；返回一个包含服务器资源的Response(包含了网络爬虫返回的内容)对象。

requests.get(url,params=None,**kwargs)

url :获取URL页面的链接

parmas:url 中额外的参数，可以是字典或字节流格式，可选

**kwargs:12个控制访问参数

其实get 方法采用request方法进行封装，其他的方法也通过调用request方法来实现的。可以理解为requests库只有一种request方法，为了编程方便才提供额外的6种方法。

3.Response对象包含了服务器返回的所有信息，同时也包含了向服务器发送请求的信息

##Response 对象的5个属性

3.1. r.status_code HTTP请求的返回状态，200表示连接成功，404表示连接失败；(有可能返回的是其他的值，只要不是200，都表示连接是失败的)

3.2.r.text HTTP响应内容的所有字符串形式，即URL对应的网页内容

3.3. r.encoding 从 HTTP header中猜测响应内容的编码方式(如果header中不存在charst字段，则默认的是ISO–8859–1编码)

3.４.r.apparent_encoding 从内容中分析出响应内容编码方式(根据网页内容分析出编码方式，更加准确)

3.5.r.content 表示响应内容的二进制形式

############################################################################################################

##爬取网页的通用代码框架

##爬取网页有风险，有可能有些网站不允许爬或者因为其他的原因无法爬取

理解requests库的异常：

# requests.ConnectionError 网络连接错误异常，如查询DNS失败或者服务器的防火拒绝连接等

# requests.HTTPError :HTTP错误异常

# requests.URLRequirde: URL缺失异常

# requests.TooManyRediecrts :重定向异常，超过最大重定向次数(对一些复杂的连接访问的时候，容易产生这样的错误)

# requests.ConnectTimeout :连接远程服务器超时异常(与服务器连接超过一个预定的时间而产生的异常)

# requests.Timeout :发起URL请求到获取URL内容，产生的超时异常

##Response 作为一个返回的对象，它提供了一个方法

r.raise_for_status() —>与异常打交道的方法，能够判定返回的状态码是不是200，如果返回的不是200，将产生一个equests.HTTPError 异常

##爬取网页的通用代码框架

importrequestsdefgetHTMLText(url):try:

r= requests.get(url,timeout=30)

r.raise_for_status()

r.encoding=r.apparent_encodingreturnr.textexcept:return "产生异常"

if _name_ == "_main_":

url="http://www.baidu.com"

print(getHTMLText(url))

####通用代码框架可以有效的处理，在访问或者爬取网页的时候产生的异常、错误，以及由于网络不稳定等因素产生的异常。用户在使用通用代码框架后可以使得爬取网页变得更加有效、稳定可靠###

####requests库的7个主要方法：

1. requests.request()

2.requests.get()

3.requests.head()

4.requests.post()

5.requests.put()

6.requests.patch()

7.requests.delete()

HTTP 协议，超文本传输协议，是一种基于“”请求与响应“”模式的，无状态的应用层协议。(无状态指的是第一次请求与第二次请求并无关联)

HTTP协议采用URL作为定位网络资源的标识

ＵＲＬ的格式　http://host[:port][path](URL是通过HTTP协议存取网络资源的Internet路径，一个URL对应一个数据资源)

host: 合法的主机域名和IP地址

port:端口号，缺省的端口号为80

path:请求的资源在服务器上的路径

HTTP协议对资源的操作(其实这6个方法也是requests库6个函数对应的功能)：

GET ：请求获取URL位置资源　与　requests.get() 方法一致

POST ：请求向ＵＲＬ的资源后增加新的信息，不改变现有的内容　与 requests.post()方法一致

HEAD ：请求获取URL资源的响应消息报告，即获取该资源的头部信息与 requsts.head()方法一致

PUT ：请求向ＵＲＬ的位置存取一个资源，原来的资源将被覆盖与 requests.put()方法一致

PATCH：请求向ＵＲＬ位置处的资源进行局部更新，改变该出资源的部分信息与 requests.patch()方法一致

DELETE：请求删除ＵＲＬ位置处的相关资源与 requests.delete()方法一致

＃＃理解ＰＡＴＣＨ和ＰＵＴ的区别

假设ＵＲＬ位置有一组数据ＵｓｅｒＩｎｆｏ，包括ＵｓｅｒＩＤ，ＵｓｅｒＮａｍｅ等２０个字段；

需求：用户修改ＵｓｅｒＮａｍｅ其他不变

＊使用ＰＡＴＣＨ，仅向URL提交UserName的局部更新请求(主要好处：节省网络带宽)

＊采用PUT，必须将所以的20个字段一并提交到ＵＲＬ，未提交的文字段将被删除(覆盖)

####requests库的head() 方法

#requests库的head()方法

importrequests

r= requests.head("http://httpbin.org/get")#用很少的网络流量获取网络资源的概要信息

print(r.headers)>>>{‘Connection‘: ‘keep-alive‘, ‘Server‘: ‘gunicorn/19.9.0‘, ‘Date‘: ‘Thu, 01 Nov 2018 14:33:19 GMT‘, ‘Content-Type‘: ‘application/json‘, ‘Content-Length‘: ‘265‘, ‘Access-Control-Allow-Origin‘: ‘*‘, ‘Access-Control-Allow-Credentials‘: ‘true‘, ‘Via‘: ‘1.1 vegur‘}>>>r.text

……….(无)

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

# Python爬虫

复制链接

赏

python网络数据爬取

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置