为何突然间要写博客呢?答:为了完成期末Python作业,被逼的。哈哈哈哈!博客之旅从此开始
1.1 为什么要学爬虫
举个例子:有一天你老板叫你去股市找出哪些股票会涨,what??? 我要是能够预测,我tm……
作为员工,我们唯一的办法就是服从,可能这就是变相炒鱿鱼的理由吧,哈哈哈哈!
废话不多说,开始我们的搜索,首先打开选股宝网站(不是广告,捂脸)https://xuangubao.cn/
看到下面这样一条新闻,估计过几天曲美家居股票就会上涨,把曲美家居收藏一波
往下拉又发现科大讯飞好像也不错,又保存起来
聪明的你肯定会往下拉,然后ctrl+c ctrl+v,50个?100个?发现很麻烦,想找个替代品来代替自己的工作,爬虫就来了
以下是爬虫的基本流程图
模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中
爬虫会模仿你的行为(只要你给它一些规则),然后将需要的信息保存起来,惊不惊喜,意不意外。
接下来我们开始学习怎么爬虫,羡慕一个人成功的同时,往往会想知道他是怎么成功的
1.2 选择Python+Selenium
第一步:安装selenium
强烈推荐默认安装python,可以免去后期百度“指定路径安装第三方库”
命令行输入
pip install selenium
第二步:安装浏览器插件
selenium支持多种浏览器模拟,此处我们采用火狐浏览器,只因它快,开源
首先安装火狐浏览器,也是默认安装在C盘
插件地址:https://github.com/mozilla/geckodriver/releases
下载好这个exe文件后,把这个文件放到你的python安装目录下,例如:C:\Python36\geckdriver.exe。
1.3 开始我们的爬虫之旅
用Notepad++打开一个空白文件,输入如下代码,保存为first.py
from selenium import webdriver # 导入webdriver包
driver = webdriver.Firefox() # 初始化一个火狐浏览器实例:driver
driver.maximize_window() # 最大化浏览器
driver.get("https://xuangubao.cn/") # 通过get()方法,打开一个指定网站
driver.quit() #关闭并退出浏览器
打开cmd窗口,cd到first.py所在的路径,在cmd中输入命令: python first.py回车,可以看看是否打开火狐,打开网站,关闭火狐的效果
其他像IE、谷歌浏览器也一样
谷歌插件:https://sites.google.com/a/chromium.org/chromedriver/downloads
IE插件:https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
什么?你电脑都没有安装python啊,怎么办呀,无疑得先学一学python的基本操作,砍树总不能没有工具吧
Python 入门资料:
1、 深入python3(强烈推荐)
可以下载HTML 或是 PDF 版本
溜了溜了,赶紧回宿舍吃粽子,溜了溜了!!!
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试