Python写一个简单的爬虫样例（不超过50行代码）

1,370次阅读

###写在题外的话

爬虫，我还是大三的时候,第一次听说，当时我的学姐给我找的一个勤工俭学的项目，要求是在微博上爬出感兴趣的信息，结果很遗憾，第一次邂逅只是擦肩而过。然后，时间来到4年后的研二，在做信息检索作业时，老师让选择一个自己感兴趣的主题，于是，第二次不期而遇。这次相遇，我本以为自己不会轻易放手，结果依然是无疾而终。直到，今天，我变成了一个人，再次相遇，我不再路过。然后，才发现，原来做一个爬虫并不难，我一直都Too young, too simple.一句话，想做爬虫，就来吧，Seize the day.

一、python爬虫综述

一个简单的爬虫，两部分组成，下载html和解析html文档。我实现了一个爬取糗事百科的首页的笑话的网络爬虫，大家可以用来参考。

二、python爬虫开发环境的搭建

开发环境：python2.7(win10-64)

开发IDE：pycharm最新版，就OK

使用到的工具包：setuptools, pip, chardet, certifi, idna, lxml, urllib3, requests, beautifulsoup, bs4所有用到的这些包我都打包放在了我的资源里，大家可以去下载，或者，直接在网上下载最新的python工具包。

[python2.7_win10爬虫开发环境工具包.zip]

三、pythonIDE的安装

使用pycharm进行python的项目，在网上很容易下载到，在注册的时候，可以使用关键字（pycharm,2017,注册码），给大家一个参考。[pyCharm最新2017激活码]

四、源代码

# coding=utf-8

import requests from bs4 import BeautifulSoup

# 获取html文档 def get_html(url): """get the content of the url""" response = requests.get(url) response.encoding = 'utf-8' return response.text

# 获取笑话 def get_certain_joke(html): """get the joke of the html""" soup = BeautifulSoup(html, 'lxml') joke_content = soup.select('div.content')[0].get_text()

return joke_content

url_joke = "https://www.qiushibaike.com" html = get_html(url_joke) joke_content = get_certain_joke(html) print joke_content

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-28

# Python爬虫

复制链接

赏

Python写一个简单的爬虫样例（不超过50行代码）

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置