一文入门Python + Selenium动态爬虫——从了解房价开始

732次阅读

没有评论

一文入门Python

作者介绍：timber ，在一家电子商务(外贸)公司任职运维，平常工作时我觉得敲命令的样子也很帅 —Python，Changed me！

个人博客地址：

https://blog.csdn.net/weixin_42946604

本文首发于：

https://blog.csdn.net/weixin_42946604

一文入门Python

前言

我这里用到了的python+selenium来抓取链家房数据，因爲很多时候分析参数，头疼啊，能分析的还好。有些网页就很变态哦，参数都是经过加密的。

selenium自动化优点(我去找了一下度娘…哈哈)，完全可以模拟人工操作网页，而且相对其他爬虫不用写请求头(偷懒)，例如直接request的，听说更容易被封(403)，我只是听说！

最后希望更大家互勉互力，一同进步！现在跟大家分享一下python selenium的小知识…

一文入门Python

整体流程

1、安裝selenium

命令行：pip install selenium 敲回车

一文入门Python

2、下載chromedriver插件，對應自己的版本，链接在此：

http://chromedriver.storage.googleapis.com/index.html

一文入门Python

直接放在Python的Scripts目录下就可以不能配置变量了，而且也不用声明路径

（后面会说到）

3、安裝pyquery 一样的用到pip安装敲回车

一文入门Python

命令行：pip install pyquery

4、安裝pymysql

命令行：pip install pymysql 同上

一文入门Python

5、以上安裝完成后，开始我們的骚操作了。

一文入门Python

网页分析

一文入门Python

我们不用声明请求头还有分析一些参数了，只要我们拿到URL，指哪爬哪！此次抓取的数据如下：

一文入门Python

那这些数据的提取正题就来了！

一文入门Python

发现每个小区的售房信息都在ul下的li标签里面。直接上代码

一文入门Python

第一步拿到html结构，然后用pyquery解析遍历li标签，我使用了items()方法

提取小区名称，找到a标签的class

一文入门Python

提取房类的文本，span标签下面

一文入门Python

其他的TEXT文本都是这样的方法提取

一文入门Python

我们这里判断一下ul的class，防止有时候网络加载的问题，导致发生错误。

一文入门Python

模拟滚动，点击下一步操作

我们没跳转一页就滚动一下滚动条，这个有好处的哦有时候很多异步加载的，例如一下ajax加载的就是很好的例子了，查看评论的时候很多是这样的！我们来看一下

一文入门Python

这也是个方法，根据个人不同来定义，我这里以800来滚动。

一文入门Python

代码实现直接上图

一文入门Python

一些其他的小动作，可以自己添加哦！

一文入门Python

数据存储

我这里用mysql存放数据，上图

一文入门Python

我提前把数据表建好了的，表名为lianjie_data，数据库名是lianjie，这里根据个人情况。

一文入门Python

数据展示

一文入门Python

是不是完完全全模拟人工操作呢，其实我没加太多动作嘻嘻源码后续放出来，也会写一些更多的小知识更大家分享

一文入门Python

千山万水总是情，点个「好看」行不行。

◆ ◆ ◆ ◆ ◆

长按二维码关注我们

数据森麟公众号的交流群已经建立，许多小伙伴已经加入其中，感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容，还没有加入的小伙伴可以扫描下方管理员二维码，让管理员帮忙拉进群，期待大家的加入。

管理员二维码：

一文入门Python + Selenium动态爬虫——从了解房价开始

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

国外代理服务器的优势及选择建议

Socks5代理配置教程及注意事项

HTTP代理服务器的设置及应用实例

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

静态代理IP怎么填写：步骤与示例

HTTP代理设置详解：一步步配置指南

什么是代理服务器IP：如何选择合适的

什么是Socks5代理IP及其优势

海外静态IP的代理选择与配置