Python网络爬虫（1）

706次阅读

没有评论

标签：

环境：Python2.7.9 / Sublime Text 2 / Chrome

1.url访问，直接调用urllib库函数即可

import urllib2

url=‘http://www.baidu.com/‘ response = urllib2.urlopen(url) html=response.read()

print html

2.带参数的访问，以baidu搜索功能为例

使用Chrome浏览器访问效果，Chrome搜索引擎设置为baidu，地址栏中输入test，效果如下：

Python网络爬虫（1）

可以看到baidu搜索的url为 https://www.baidu.com/s?ie=UTF-8&wd=test

修改代码，增加访问参数

# coding=utf-8 import urllib import urllib2

#url地址 url=‘https://www.baidu.com/s‘ #参数 values={ ‘ie‘:‘UTF-8‘, ‘wd‘:‘test‘ } #进行参数封装 data=urllib.urlencode(values) #组装完整url req=urllib2.Request(url,data)

#访问完整url response = urllib2.urlopen(req) html=response.read()

print html

运行代码，得到结果为

Python网络爬虫（1）

提示访问页面不存在，这个时候需要考虑一下访问方式的问题。urllib2.Request(url,data) 访问方式为POST方式，需要改用GET方式进行尝试，更改代码为

# coding=utf-8 import urllib import urllib2

#url地址 url=‘https://www.baidu.com/s‘ #参数 values={ ‘ie‘:‘UTF-8‘, ‘wd‘:‘test‘ } #进行参数封装 data=urllib.urlencode(values) #组装完整url #req=urllib2.Request(url,data) url=url+‘?‘+data

#访问完整url #response = urllib2.urlopen(req) response = urllib2.urlopen(url) html=response.read()

print html

再次运行，获得结果为

Python网络爬虫（1）

https发生了重定向，需要改用http

# coding=utf-8 import urllib import urllib2

#url地址 #url=‘https://www.baidu.com/s‘ url=‘http://www.baidu.com/s‘ #参数 values={ ‘ie‘:‘UTF-8‘, ‘wd‘:‘test‘ } #进行参数封装 data=urllib.urlencode(values) #组装完整url #req=urllib2.Request(url,data) url=url+‘?‘+data

#访问完整url #response = urllib2.urlopen(req) response = urllib2.urlopen(url) html=response.read()

print html

再次运行，可实现正常访问

Python网络爬虫（1）

Python网络爬虫（1）–url访问及参数设置

标签：

转载来源：http://www.mamicode.com/info-detail-477628.html

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

# Python爬虫

复制链接

赏

Python网络爬虫（1）

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

HTTP代理服务器的设置及应用实例

动态与静态代理IP的区别解析

静态代理IP怎么填写：步骤与示例

国外代理服务器的优势及选择建议

海外静态IP的代理选择与配置

HTTP代理设置详解：一步步配置指南

什么是代理服务器IP：如何选择合适的

如何找到可靠的免费代理服务器