python简单爬虫例子（一）

480次阅读

没有评论

环境与上一篇一样windows，editplus，python-2.7.6（且我前面文章有介绍过配置过程）

另外介绍一个抓包工具fiddler，超级好用的，特别是在以后你需要爬一些很复杂网站时。（不要它是英文就接受不了，上手很快的）

以前都是用beautifulsoup，现在想从头尝试用urllib2.

urllib2是python提供的抓取网页的组件。

1.最简单例子：

import urllib2 response = urllib2.urlopen("http://www.baidu.com/") html = response.read() print html
输出就是百度首页的编码。

2.下面是一个需要发送数据的爬虫简单例子。发送方式时get。（其实我自己也不知道为什么，在浏览器的网站栏里，网站的url中的中文是正常显示的，但是我把url拷到editplus里之后就变了，好吧，拷到其他地方也是这样。。。不知道是为什么，开始还担心请求会不成功的，后来还是有数据的。看来是我的web开发学的不到位，如果有知道原因的，请留言告诉我一声，虽然这件事和这个例子没什么关系。。。）

#coding=utf-8 import urllib import urllib2

#http://dujia.qunar.com/pq/list_%E5%AE%9C%E6%98%8C?searchfrom=around&arounddep=%E6%AD%A6%E6%B1%89&tf=Ihot_01 data = {} data['searchfrom'] = 'around' data['arounddep'] = '%E6%AD%A6%E6%B1%89' data['tf'] = 'Ihot_01'

value = urllib.urlencode(data) print value url = 'http://dujia.qunar.com/pq/list_%E5%AE%9C%E6%98%8C' + '?' + value

response = urllib2.urlopen(url) print response.read()
3.也是需要发送数据的爬虫例子。这个是post方式的。

import urllib import urllib2

#http://dujia.qunar.com/pq/list_%E5%AE%9C%E6%98%8C?searchfrom=around&arounddep=%E6%AD%A6%E6%B1%89&tf=Ihot_01 data = {} data['searchfrom'] = 'around' data['arounddep'] = '%E6%AD%A6%E6%B1%89' data['tf'] = 'Ihot_01'

value = urllib.urlencode(data) print value

url = 'http://dujia.qunar.com/pq/list_%E5%AE%9C%E6%98%8C' response = urllib2.urlopen(url,value) print response.read()
貌似两个也没大差哈~

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-28

# Python爬虫

复制链接

赏

python简单爬虫例子（一）

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置