Python 爬虫篇

763次阅读

原理也很简单，html 链接都是在 a 元素里的，我们就是匹配出所有的 a 元素，当然 a 可以是空的链接，空的链接是 None，也可能是无效的链接。

我们通过 urllib 库的 request 来测试链接的有效性。
当链接无效的话会抛出异常，我们把异常捕获出来，并提示出来，没有异常就是有效的，我们直接显示出来就好了。

需要用到的技术：
python+selenium
python+selenium 基本环境搭建

urllib.request
这是 python 自带的，直接就可以使用。

# -*- coding: GBK -*- from selenium import webdriver import urllib.request from urllib.request import URLError

# 调用chrome浏览器并后台运行 option=webdriver.ChromeOptions() option.add_argument('headless') driver = webdriver.Chrome(chrome_options=option)

driver.get("http://www.tencent.com/") # 要测试的页面 urls = driver.find_elements_by_xpath("//a") # 匹配出所有a元素里的链接

print("当前页面的可用链接如下：")

for url in urls: u=url.get_attribute('href') if u == 'None': # 很多的a元素没有链接，所有是None continue try: response=urllib.request.urlopen(url.get_attribute("href")) # 可以通过urllib测试url地址是否能打开 except: print('Error url: ' + url.get_attribute('href')) # 把测试不通过的url显示出来 else: print(url.get_attribute("href")) # 测试通过的url展示出来

driver.close()

运行成功效果图：
Python
喜欢的点个赞❤吧！

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

# Python爬虫

复制链接

赏

Python 爬虫篇

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

动态与静态代理IP的区别解析