Python + Selenium 入门爬虫——环境介绍及搭建

794次阅读

没有评论

为何突然间要写博客呢？答：为了完成期末Python作业，被逼的。哈哈哈哈！博客之旅从此开始

举个例子：有一天你老板叫你去股市找出哪些股票会涨，what？？? 我要是能够预测，我tm……

作为员工，我们唯一的办法就是服从，可能这就是变相炒鱿鱼的理由吧，哈哈哈哈！

废话不多说，开始我们的搜索，首先打开选股宝网站（不是广告，捂脸）https://xuangubao.cn/

看到下面这样一条新闻，估计过几天曲美家居股票就会上涨，把曲美家居收藏一波

Python

往下拉又发现科大讯飞好像也不错，又保存起来

Python

聪明的你肯定会往下拉，然后ctrl+c ctrl+v，50个？100个？发现很麻烦，想找个替代品来代替自己的工作，爬虫就来了

以下是爬虫的基本流程图

模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中

Python

爬虫会模仿你的行为（只要你给它一些规则），然后将需要的信息保存起来，惊不惊喜，意不意外。

接下来我们开始学习怎么爬虫，羡慕一个人成功的同时，往往会想知道他是怎么成功的

第一步：安装selenium

强烈推荐默认安装python，可以免去后期百度“指定路径安装第三方库”

命令行输入

pip install selenium

第二步：安装浏览器插件

selenium支持多种浏览器模拟，此处我们采用火狐浏览器，只因它快，开源

首先安装火狐浏览器，也是默认安装在C盘

插件地址：https://github.com/mozilla/geckodriver/releases

下载好这个exe文件后，把这个文件放到你的python安装目录下，例如：C:\Python36\geckdriver.exe。

用Notepad++打开一个空白文件，输入如下代码，保存为first.py

from selenium import webdriver # 导入webdriver包

driver = webdriver.Firefox() # 初始化一个火狐浏览器实例：driver

driver.maximize_window() # 最大化浏览器

driver.get("https://xuangubao.cn/") # 通过get()方法，打开一个指定网站

driver.quit() #关闭并退出浏览器

打开cmd窗口，cd到first.py所在的路径，在cmd中输入命令: python first.py回车，可以看看是否打开火狐，打开网站，关闭火狐的效果

其他像IE、谷歌浏览器也一样

谷歌插件：https://sites.google.com/a/chromium.org/chromedriver/downloads

IE插件：https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/

什么？你电脑都没有安装python啊，怎么办呀，无疑得先学一学python的基本操作，砍树总不能没有工具吧

Python 入门资料：

1、深入python3（强烈推荐）

可以下载HTML 或是 PDF 版本

溜了溜了，赶紧回宿舍吃粽子，溜了溜了!!!

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-28

# Python爬虫

复制链接

赏

Python + Selenium 入门爬虫——环境介绍及搭建

1.1 为什么要学爬虫

1.2 选择Python+Selenium

1.3 开始我们的爬虫之旅

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

在线代理服务器的使用与推荐

什么是代理服务器IP：如何选择合适的

HTTP代理服务器的设置及应用实例

海外静态IP的代理选择与配置

动态与静态代理IP的区别解析

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

如何找到可靠的免费代理服务器

国外代理服务器的优势及选择建议

HTTP代理设置详解：一步步配置指南