第一次写爬虫是因为想要爬小伙伴空间的说说和留言,结果卡在了验证码。目前还没有解决自动输入验证码的问题。遇到了一下一些问题:
1.火狐浏览器需要下载geckodriver
2.登录表单在frame中,需要切换
3.切换后,要返回默认的主文档(是为了进行下一步操作,比如爬取当前页面的说说内容或定位当前页面的一些元素)
#coding=utf-8
import time from selenium import webdriver import sys # 使用的火狐浏览器 driver = webdriver.Firefox() # 要进入的空间url driver.get("https://user.qzone.qq.com/1597872870") # 登录表单在一个新的frame下,要先切换到这个frame,不然找不到账号密码的输入控件 driver.switch_to_frame('login_frame') driver.find_element_by_id('switcher_plogin').click() driver.find_element_by_id('u').clear() driver.find_element_by_id('u').send_keys('qq账号') driver.find_element_by_id('p').clear() driver.find_element_by_id('p').send_keys('qq密码') time.sleep(3) driver.find_element_by_id('login_button').click() # 好像有时候需要输入验证码,暂停20秒手动输入验证码 time.sleep(20) driver.switch_to.default_content()
算是挖了一个坑,慢慢开始填坑吧。写这个爬虫已经好久了,一直想着写博客记录,但是毁于拖延症。第一次写,中间遇到的问题其实还挺多,但是,时间长…就忘了。下篇就写,如何爬取空间留言板的内容吧。先立个flag。
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试